What(是什么) 核心对象:小米 MiMo 是小米自研的大语言模型 (LLM) 系列,包含多个分支模型,如 MiMo-7B (首个推理大模型)、MiMo-VL (多模态)、MiMo-Audio (语音)、MiMo-Embodied (具身智能) 和最新的MiMo-V2-Flash(MoE 架构旗舰模型) 核心任务:构建面向智能体 (Agent) 场景深度优化的基座模型,专注于复杂推理、高效编码、长文本处理和工具调用,从 “回答问题” 走向 “完成任务” 目标内容: MiMo-7B:70 亿参数轻量化推理模型,主打数学推理和代码生成 MiMo-V2-Flash:309B 总参数 (15B 激活参数) MoE 架构,256k 上下文窗口,150 tokens / 秒推理速度,SWE-Bench 代码得分 73.4% MiMo-Embodied:打通自动驾驶与具身智能的跨域基座模型 必须主体:小米大模型 Core 团队、AI 实验室、硬件适配团队 Why(为什么) 核心动机:解决当前 AI 落地三大痛点 ——算力成本高、推理速度慢、长文本处理弱,构建小米 “人车家全生态” 的 AI 底座 解决问题: 降低大模型部署门槛,实现端侧 (手机、智能家居) 高效运行,减少云端依赖 提升复杂任务处理能力,支持数百轮 Agent 交互和工具调用 缩小与顶尖模型的性能差距,同时保持极致性价比 价值意义: 对小米:强化 AI 技术壁垒,赋能手机、汽车、智能家居等硬件产品,提升用户体验 对开发者:MIT 协议全面开源,降低 AI 开发成本,推动生态共建 对行业:提供 “大模型性能 + 小模型能耗” 的平衡方案,树立高效推理新标杆 Who(谁负责 / 服务) 执行团队: 负责人:罗福莉 (小米 MiMo 大模型负责人,AI 领域知名专家) 核心团队:小米大模型 Core 团队 (全新成立)、AI 实验室、跨领域研发人员 相关方:小米集团 (投入 400 亿 AI 研发)、硬件部门、开发者社区、Hugging Face 平台 服务对象: 内部:小米产品团队 (手机、汽车、智能家居) 外部:全球开发者、中小企业、AI 应用服务商、终端用户 When(时间节点) 里程碑 时间 关键事件 首个模型发布 2025 年 4 月 30 日 MiMo-7B 正式开源,70 亿参数推理模型 具身模型发布 2025 年 11 月 21 日 MiMo-Embodied 开源,跨域具身智能突破 旗舰模型发布 2025 年 12 月 16-17 日 MiMo-V2-Flash 发布并开源,罗福莉首次公开亮相 技术演进 持续迭代 从单一推理模型扩展至多模态、语音、具身智能全系列 Where(何地执行 / 服务) 研发地点:小米北京总部、AI 实验室、各地研发中心 部署场景: 云端:MiMo Studio 在线 AI 聊天平台 端侧:小米手机、智能音箱、汽车座舱等终端设备 混合:支持端云协同,根据任务动态分配算力 服务区域:全球市场,以 MIT 开源协议向全球开发者开放 How(怎么做) 技术路径: 架构创新:采用 MoE (混合专家) 架构,动态激活部分参数,平衡性能与能耗 推理加速:Hybrid 注意力架构 + 多层 MTP 技术,推理速度提升 2-2.6 倍 轻量化改造:模型压缩、算力适配,针对小米硬件特性优化 训练优化:基于 2.5 万亿 Token 预训练,强化学习微调,提升推理和代码能力 执行阶段: 预训练:大规模数据训练基础模型 微调:针对特定任务 (推理、代码、具身) 优化 适配:硬件端侧部署优化,降低运行门槛 开源:发布模型权重和工具链,建立开发者社区 资源需求: 算力:小米自研 AI 芯片 + 第三方高性能 GPU 集群 数据:2.5 万亿 Token 高质量文本数据 人才:AI 算法专家、硬件工程师、自然语言处理团队 核心总结 小米 MiMo 大模型以 “极致效率 + 全面开源” 为核心策略,通过轻量化设计和架构创新,解决 AI 落地痛点,同时为小米生态和全球开发者提供高性能、低成本的 AI 基座。最新的 MiMo-V2-Flash 标志着小米在大模型领域已跻身全球开源第一梯队,未来将持续赋能 “人车家全生态”,推动 AI 技术向更实用、更普惠的方向发展。
报告日期: 2025年12月18日 研究员: 您的专属AI研究助手
小米MiMo大模型深度研究报告
摘要
本报告旨在全面、深入地分析小米公司在2025年期间发布并持续迭代的“MiMo”系列大语言模型。截至2025年12月18日,通过整合市面上所有公开信息与技术文档,本报告对MiMo大模型的战略定位、技术演进、核心架构、性能表现、轻量化部署策略及其在小米“人车家全生态”中的应用前景进行了系统性梳理与评估。
研究发现,2025年是小米在人工智能领域,特别是大模型赛道上,展现其雄心与技术实力的关键一年。小米并未盲目追随业界进行无休止的参数竞赛,而是独辟蹊径,确立了以“推理能力”为核心、以“轻量化与端侧部署”为特色的双轮驱动战略 [[1]][[2]][[3]]。
从2025年4月发布首个专注于推理的开源模型Xiaomi MiMo-7B [[4]][[5]]到年中陆续推出多模态MiMo-VL系列 [[6]][[7]]和具身智能模型MiMo-Embodied [[8]],再到年底压轴发布的、采用混合专家(MoE)架构的巨型模型MiMo-V2-Flash [[9]][[10]]小米构建了一个层次分明、功能互补的模型矩阵。这一系列模型不仅在多个权威基准测试(尤其是在数学推理AIME和代码生成LiveCodeBench上)取得了超越业界巨头更大规模模型的惊人成绩 [[11]][[12]][[13]]更重要的是,它们从设计之初就深度优化了在移动端和边缘设备上的运行效率。
报告深入剖析了MiMo系列背后的技术支撑,包括其“预训练与后训练双轮驱动”的训练范式、混合专家(MoE)架构的应用,以及为实现高效端侧部署而采用的结构化剪枝、模型量化(如INT4)、专有优化器(ScaledAdam)和软硬件协同等一系列技术 [[14]][[15]][[16]]。
在应用层面,尽管截至目前,小米尚未公布具体的外部企业商业部署案例,但MiMo大模型已开始深度赋能小米自身的“人车家全生态”体系。从搭载于HyperOS 3.0的MiMo-7B [[17]],到为智能家居场景设计的Xiaomi Miloco解决方案 [[18]],再到赋能小爱同学、智能汽车和各类AIoT设备,MiMo系列正成为重构小米智能设备操作系统、提升用户体验的核心AI引擎 [[19]][[20]][[21]]。
然而,本报告也指出当前研究存在的一些空白,例如MiMo-7B在MMLU和HellaSwag等通用语言理解基准上的官方得分数据缺失,以及关于MiMo-V2-Flash端侧部署所采用的具体量化算法和硬件加速器型号的官方详细信息尚待披露。
总体而言,小米MiMo大模型系列在2025年的发展轨迹清晰地表明,小米正在构建一个以开源为基础、以卓越推理能力为标签、以端侧智能为最终目标的AI新范式,这不仅将深刻改变小米自身的产品形态,也为整个AI行业的发展,特别是边缘AI的普及,提供了极具价值的参考路径。
第一章:小米MiMo大模型系列概览与发展历程
回顾2025年,全球人工智能领域风起云涌,大语言模型(LLM)的竞争进入白热化阶段。在众多科技巨头纷纷投入“军备竞赛”的背景下,小米公司以一种截然不同的姿态入局,其推出的MiMo系列大模型,凭借其独特的战略定位和技术突破,迅速成为业界关注的焦点。本章节将宏观梳理MiMo大模型系列的整体战略、2025年的发展时间线、模型矩阵以及其核心的开源生态策略。
1.1 战略定位:“推理”与“端侧”双轮驱动
与业界普遍追求更大参数、更全能的通用基础模型不同,小米从一开始就为自己的大模型战略设定了清晰且差异化的目标。综合所有公开信息,其核心战略可概括为“推理”与“端侧”的双轮驱动。
首先,聚焦“推理能力”(Reasoning)。小米将MiMo系列,特别是其开山之作MiMo-7B,明确定义为“为推理而生的开源大模型” [[22]][[23]]或“专注于推理能力的开源大语言模型” [[24]][[25]][[26]]。这一定位意味着小米并非意图打造一个无所不包的“万事通”,而是希望模型在逻辑、数学、代码生成等需要深度思考和复杂推理的任务上达到顶尖水平。这一策略的背后,是小米对AI应用场景的深刻洞察:在未来的人机交互中,真正能为用户创造价值的,往往是能够理解复杂指令、解决实际问题的AI能力,而非简单的知识问答。这种“以点破面”的策略,使得小米能够集中资源,在关键能力上实现技术突破,从而形成了“以小博大”的竞争优势 [[27]][[28]][[29]]。
其次,坚定“轻量化与端侧部署”(Lightweight & On-Device Deployment)。这是小米大模型战略的另一大基石,也是其与云端大模型厂商最本质的区别。小米将大模型的主力方向明确为“轻量化”和“本地部署” [[30]][[31]][[32]]。这一战略选择与小米作为全球领先的消费电子和智能设备制造商的身份紧密相连。其核心逻辑在于: 1. 用户隐私与数据安全:通过在设备端本地处理数据,可以最大限度地保护用户隐私,避免敏感数据上传至云端 [[33]][[34]][[35]]。 2. 极致的用户体验:端侧部署能够实现更低的延迟和更快的响应速度,并且在无网络或网络不佳的环境下依然可用,这对于手机、汽车、智能家居等即时交互场景至关重要 [[36]]。 3. 成本与能效:本地部署可以有效降低对云端昂贵算力的依赖,节约运营成本,同时也更符合移动设备对功耗的严苛要求 [[37]]。
为了实现这一目标,小米从模型架构设计、训练算法优化到硬件适配,进行了一系列系统性的创新 [[38]][[39]]。可以说,MiMo系列大模型是小米“人车家全生态”战略在AI时代的核心技术引擎,其终极目标是深度融入并重构智能设备的操作体验 [[40]][[41]][[42]]。
1.2 2025年发展时间线与模型矩阵
2025年,小米以惊人的速度和清晰的路线图,发布了多个MiMo系列模型,构建起一个覆盖不同参数规模、不同模态、不同应用场景的立体化模型矩阵。
2025年4月30日:推理先锋MiMo-7B发布 小米在这一天正式发布并开源了其首个推理大模型Xiaomi MiMo,参数规模为70亿(7B) [[43]][[44]][[45]]。这不仅是小米进军基础大模型领域的里程碑,更以其在数学推理(AIME)和代码竞赛(LiveCodeBench)等高难度评测中超越OpenAI和阿里等更大规模模型的卓越表现,一鸣惊人,为小米大模型赢得了极高的技术声誉 [[46]][[47]][[48]]。MiMo-7B系列后续还开源了包括基础模型(Base)、指令微调模型(Instruct)和强化学习微调模型(RL)在内的多个版本 [[49]]。
2025年5月-8月:多模态与具身智能的拓展 在成功发布语言大模型后,小米迅速将其能力拓展至多模态领域。
- MiMo-VL系列:大约在5月至8月期间,小米陆续发布了多模态大语言模型(MLLM)MiMo-VL-7B系列,例如MiMo-VL-7B-2508、MiMo-VL-7B-RL-2508等版本 [[50]][[51]][[52]]。这些模型旨在增强对图像、图表等视觉信息的理解能力,并在MMMU、ChartQA等多个权威多模态基准测试中取得突破性成绩 [[53]][[54]]。
- MiMo-Embodied:2025年8月,小米发布了跨域具身大模型Xiaomi MiMo-Embodied [[55]][[56]]。该模型采用多阶段训练策略,专注于机器人的感知、决策与规划能力,在29个核心基准测试中达到了新的SOTA(State-of-the-Art),标志着小米AI开始从数字世界走向物理世界 [[57]][[58]]。
- MiDashengLM-7B:在此期间,小米还开源了其声音理解大模型MiDashengLM-7B,专注于智能家居、智能音箱、车载语音等场景下的音频理解任务 [[59]][[60]]。
2025年11月:应用方案Xiaomi Miloco亮相 小米推出了面向未来的智能家居探索方案Xiaomi Miloco,该方案使用了名为Xiaomi MiMo-VL-Miloco的大模型 [[61]][[62]]。这并非一个孤立的模型发布,而是小米展示如何将大模型技术深度落地到具体场景、理解和预测用户需求的综合解决方案,是其“模型-硬件-场景”生态闭环的重要体现 [[63]][[64]]。
2025年12月17日:混合专家模型MiMo-V2-Flash发布 在年末,小米再次投下重磅炸弹,发布了其基座大模型的重要成果——MiMo-V2-Flash [[65]][[66]]。该模型采用先进的混合专家(MoE)架构,总参数量达到惊人的3090亿,但激活参数仅为150亿 [[67]][[68]][[69]]。这一设计极大地提升了模型的推理效率和性价比,使其在保持强大能力的同时,更易于部署和使用。MiMo-V2-Flash具备强大的代码和工具调用能力,并采用了新的后训练范式,代表了小米在基础大模型领域的最新技术高度 [[70]][[71]][[72]]。
1.3 开源生态战略
贯穿小米MiMo系列发展始终的一个核心关键词是“开源”。从MiMo-7B到MiMo-V2-Flash,再到各种多模态和专用模型,小米几乎都选择了将模型代码、技术报告乃至部分训练细节向全球开发者和研究者开放 [[73]][[74]][[75]]。
小米主要通过GitHub和Hugging Face这两个全球主流的开源平台来发布其模型和技术文档 [[76]][[77]][[78]]。例如,MiMo-7B的技术报告PDF文件可以直接在GitHub上获取 [[79]]。
这一战略的意义是深远的: 1. 构建技术影响力:通过开源展示自身的技术实力,吸引顶级AI人才,提升小米在AI领域的品牌形象。 2. 加速技术迭代:借助全球社区的力量,发现模型的问题、贡献新的想法,加速模型的优化和迭代。 3. 培育应用生态:鼓励开发者和企业在MiMo模型的基础上进行二次开发和创新,探索更多应用场景,从而围绕小米的技术构建一个繁荣的应用生态 [[80]][[81]][[82]]。这与小米硬件生态的打法一脉相承。
1.4 名称厘清:与MiniMax公司MIMO模型的区别
在研究过程中,我们注意到市场上存在另一个名为“MIMO”的大模型,即由初创公司MiniMax推出的“MiniMaxLanguageModel(MIMO)” [[83]]。需要明确指出,此“MIMO”与小米的“Mimo”或“Xiaomi MiMo”系列模型没有任何关系。MiniMax的MIMO是其独立研发的模型,且根据信息其训练数据截止于2023年2月 [[84]],而小米的MiMo系列模型是2025年才发布的全新模型。此外,小米也从未表示其模型是基于华为技术开发的 [[85]]。因此,在讨论小米的大模型时,应准确使用“Xiaomi MiMo”或结合上下文明确其归属,以避免混淆。
第二章:核心技术架构深度解析
小米MiMo系列大模型之所以能在短时间内取得令人瞩目的成就,其背后是一套精心设计且不断演进的技术架构。本章将深入剖析MiMo系列几个代表性模型(MiMo-7B、MiMo-V2-Flash、MiMo-VL等)的核心技术特点,揭示其实现“以小博大”和高效推理的秘密。
2.1 MiMo-7B:推理先锋的技术基石
作为小米大模型的开山之作,MiMo-7B不仅是一款产品,更是一套技术范式的成功验证。它的核心技术特点在于其独特的训练框架和对推理任务的深度优化。
2.1.1 “预训练”与“后训练”双轮驱动架构
MiMo-7B的成功,关键在于其采用的“预训练与后训练双轮驱动”的技术架构 [[86]]。这套架构摒弃了传统“预训练-微调”的简单模式,将模型的塑造过程分解为两个同样重要的阶段:
大规模、高质量的预训练(Pre-training):这是模型获取世界知识和基础语言能力的地基。小米为MiMo-7B构建了包含高达2000亿Tokens(词元)的高质量数据集进行预训练 [[87]]。这个阶段的目标是让模型学习到广泛的语言模式、事实知识和初步的逻辑关联能力。值得注意的是,小米可能在此阶段就对数据配比进行了针对性优化,加入了更多有助于培养推理能力的数据。
创新的后训练(Post-training)范式:这是MiMo-7B实现能力跃迁的“点睛之笔”。与传统仅进行指令微调(SFT)和基于人类反馈的强化学习(RLHF)不同,小米的后训练阶段可能包含更复杂的、专门针对推理任务的强化学习过程。相关信息表明,MiMo-7B的强化学习调优版本(MiMo-7B-RL)在各项推理基准上表现尤为突出 [[88]],例如在HumanEval代码生成任务上,其一次通过率相比OpenAI的o1-mini提升了高达23% [[89]]。这暗示小米可能开发了更高效的奖励模型(Reward Model)或更先进的强化学习算法(如PPO的变体),能够精准地引导模型学习如何进行多步推理、逻辑演绎和代码实现。
2.1.2 专为推理优化的模型设计
虽然搜索结果未详细披露MiMo-7B在Transformer架构上的具体改动,但结合其“为推理而生”的定位,可以合理推断小米在其模型结构层面进行了一系列优化。这些优化可能包括:
- 注意力机制的改良:可能采用了更适合长依赖关系捕捉或逻辑链条追踪的注意力变体。
- 网络深度与宽度的权衡:为了在7B这样相对较小的参数规模下实现强大性能,模型的设计必须非常高效。小米方面曾提及,他们会根据对Transformer结构的理解以及对端侧芯片特性的考量,来合理设置模型的宽度和深度 [[90]][[91]]。
- 激活函数的选择:可能选用了更有利于稳定训练和提升非线性表达能力的激活函数。
通过这种预训练和后训练相结合、并深度优化推理任务的策略,MiMo-7B成功地在一个7B参数的模型上,实现了超越32B甚至闭源模型的推理性能,完美诠释了“以小博大”的设计哲学 [[92]][[93]]。
2.2 MiMo-V2-Flash:混合专家(MoE)架构的突破
如果说MiMo-7B是小米在特定能力上单点突破的“尖刀”,那么于2025年12月17日发布的MiMo-V2-Flash则是小米向着更强大、更高效的通用基础模型迈进的“重器”。其核心技术亮点在于混合专家(Mixture-of-Experts, MoE)架构的应用。
2.2.1 MoE架构:庞大而高效的秘诀
MiMo-V2-Flash拥有3090亿的总参数量,但激活参数仅为150亿 [[94]][[95]][[96]]。这是MoE架构的典型特征。
工作原理:MoE架构将传统大模型中庞大的前馈神经网络(FFN)层替换为由多个“专家网络”(Experts)和一个“门控网络”(Gating Network)组成的结构。当模型处理一个输入(如一个词元)时,门控网络会根据输入内容,智能地选择激活一小部分最相关的专家网络来参与计算,而其他大部分专家则保持“沉默”。
核心优势:
- 巨大的模型容量:通过增加专家的数量,可以轻易地将模型的总参数量扩展到数千亿甚至万亿级别,从而存储更丰富、更专业的知识。这就是其3090亿总参数的由来。
- 高效的推理成本:在每次推理时,实际参与计算的只是被激活的一小部分专家,其计算量约等于一个稠密模型(Dense Model)的规模。在MiMo-V2-Flash中,这个规模是150亿参数 [[97]][[98]]。这使得它虽然总参数庞大,但推理速度和成本却远低于一个同等规模的稠密模型,实现了“高性价比” [[99]][[100]]。
2.2.2 MiMo-V2-Flash的技术创新
小米的MiMo-V2-Flash并不仅仅是简单地应用了MoE,还融入了多项技术创新以提升其性能和效率:
- 强大的代码和工具调用能力:这表明小米在训练MiMo-V2-Flash时,可能专门增强了其作为“智能体(Agent)”核心的能力,使其能更好地理解和使用外部工具(API),这对于执行复杂任务至关重要 [[101]][[102]]。
- 高效推理结构:除了MoE本身,小米可能还应用了其他加速推理的技术。搜索结果中提到了混合注意力机制和多层MTP(可能是Multi-layer Token Parallelism)推理加速等技术 [[103]][[104]][[105]]这些都旨在进一步优化模型的计算效率和响应速度。
- 新的后训练范式:针对MoE架构的特性,小米开发了新的后训练方法,以更好地激发和协调众多专家的能力,确保模型整体性能的强大和稳定 [[106]][[107]]。
MiMo-V2-Flash的发布,标志着小米已经掌握了构建业界最前沿的大模型架构的能力,其技术储备足以支撑未来更宏大的AI战略。
2.3 MiMo-VL与MiMo-Embodied:向多模态与具身智能的延伸
小米的AI布局并未局限于文本。MiMo-VL和MiMo-Embodied的推出,展示了其将核心AI能力向更广阔领域延伸的决心。
MiMo-VL(Visual-Language):作为多模态大模型,MiMo-VL的核心任务是打通视觉和语言两个模态。其技术架构很可能是在MiMo语言模型的基础上,增加了一个视觉编码器(Visual Encoder,如ViT变体),并通过一个连接模块(如Q-Former或简单的MLP投影层)将视觉特征与语言空间对齐。搜索结果提到,小米针对MiMo-VL优化了输出模式和强化学习训练的稳定性 [[108]],这暗示其在解决多模态模型常见的“幻觉”(Hallucination)问题和提升图文对齐的精确度方面进行了深入研究。其在ChartQA(图表问答)和ScreenSpot-v2(UI理解)等基准上的优异表现,也证明了其强大的多模态理解能力 [[109]][[110]]。
MiMo-Embodied:具身智能是AI的终极挑战之一。MiMo-Embodied的核心技术在于其多阶段训练策略 [[111]][[112]]。这个策略可能包括:
- 通用世界模型预训练:在大规模的文本、图像、视频数据上进行训练,让模型理解物理世界的基本规律。
- 仿真环境中的技能学习:在虚拟仿真环境(如NVIDIA Isaac Sim)中进行强化学习,训练模型完成抓取、导航等基本机器人技能。
- 真实世界数据的微调:利用少量真实机器人的操作数据进行微调,弥合仿真与现实之间的差距(Sim-to-Real Gap)。
其在29项核心基准测试中取得领先地位,表明该模型在感知、决策与规划等具身智能的核心环节上都达到了很高的水平,为未来小米的机器人(如CyberDog、CyberOne)提供了一个强大的“大脑” [[113]][[114]]。
第三章:轻量化与端侧部署技术详解
将强大的大模型装入小小的手机、汽车和智能家居设备中,是小米MiMo战略的终极目标,也是其技术护城河的关键所在。这一过程涉及从算法到硬件的全栈优化。本章将详细解析小米为实现高效轻量化与端侧部署所采用的核心技术。
3.1 小米的端侧部署核心理念
小米的端侧部署理念根植于其作为硬件公司的基因,强调隐私、延迟、成本和可用性的完美平衡。小米创始人雷军曾在演讲中强调,大模型在终端的轻量化部署,需要在芯片的算力与功耗之间找到平衡点 [[115]]。这一理念贯穿于小米的整个技术栈。
HyperOS作为小米“人车家全生态”的操作系统,其内置的AI子系统是承载MiMo模型端侧部署的核心平台 [[116]]。根据小米HyperOS技术白皮书披露的信息,小米构建了一个完善的AI融合部署框架。该框架具备以下能力 [[117]][[118]]: * 模型转换:支持将主流训练框架(如TensorFlow, PyTorch)训练出的模型,高效转换为适用于端侧推理的格式,如ONNX、TFLite等。 * 模型压缩:内置了包括量化、剪枝、知识蒸馏在内的多种模型压缩工具,为大模型“瘦身”。 * 异构硬件支持:能够智能地将计算任务分发到设备的CPU、GPU、NPU(神经处理单元)、DSP(数字信号处理器)等不同硬件上,实现异构计算,最大化利用硬件资源。
MiMo-7B作为小米的“端侧推理先锋”,已被集成至HyperOS 3.0,并针对移动设备进行了深度优化,实现了低能耗和快速响应 [[119]][[120]]。
3.2 关键算法与优化器
为了将动辄数十亿参数的模型塞进手机,小米在算法层面进行了大量创新。
3.2.1 模型压缩技术
模型压缩是轻量化的核心手段,主要包括剪枝和量化。
结构化剪枝:TransAct 小米大模型团队提出了一种名为“TransAct”的大模型结构化剪枝方法 [[121]][[122]]。与非结构化剪枝(随机移除单个权重,难以在通用硬件上加速)不同,结构化剪枝会移除整个神经元、通道甚至更大的结构单元。这使得剪枝后的模型结构规整,能够直接利用现有硬件实现推理加速。虽然TransAct的具体技术细节未完全公开,但它很可能是通过分析权重或激活值的重要性,来决定移除哪些“冗余”的结构部分,从而在显著降低计算量的同时,尽可能保持模型精度。
量化算法:INT4成为主流,方法持续创新 量化是降低模型体积和加速计算最有效的手段之一。它将模型中高精度的32位浮点数(FP32)权重和激活值,转换为低精度的整数,如8位整数(INT8)或4位整数(INT4) [[123]][[124]][[125]]。
- INT4量化的应用:小米创始人雷军明确提到,手机端支持INT4计算 [[126]]。INT4量化可以将模型体积压缩至原来的1/8,计算速度获得数倍提升,是当前手机端部署大模型的主流方案 [[127]]。
- 量化算法创新:简单的量化会带来精度损失。为了解决这个问题,小米团队进行了深入研究,提出了“基于权重转移的端侧量化方法”和“基于Outliers分离的端侧量化方法” [[128]][[129]]。“Outliers”(异常值)是导致大模型量化精度下降的主要元凶,这些值虽然数量少,但数值极大,扰乱了量化范围。小米提出的方法很可能是将这些异常值单独分离出来,用更高精度(如FP16)表示,而主体部分则可以更精确地进行低比特量化(如INT4),从而在整体上达到精度和效率的最佳平衡。虽然搜索结果未明确指出MiMo-V2-Flash具体采用了GPTQ或AWQ等业界知名量化算法 [[130]][[131]]但小米自研的这些量化方法,无疑为其端侧部署提供了坚实的技术保障。
3.2.2 专有训练优化器
为了提升大模型训练的效率和稳定性,特别是在资源有限的情况下,小米还自研了优化器和学习率调度器。
- ScaledAdam优化器:这是一种针对大规模模型训练的优化器。传统Adam优化器在训练大模型时可能会存在显存占用过高、收敛不稳定的问题。小米的ScaledAdam很可能通过一些缩放技巧或二阶动量修正,提升了收敛速度,同时减少了训练过程中的显存浪费 [[132]][[133]]。
- Eden学习率调度器:学习率的调整策略对模型训练至关重要。Eden调度器可能是一种新型的学习率衰减或预热方案,能够帮助模型更快地跳出局部最优,找到更好的收敛点 [[134]][[135]]。
这些自研工具的应用,使得小米在训练MiMo系列模型时,能够更高效地利用算力资源,用更低的成本达到更好的训练效果。
3.3 硬件加速与软硬件协同
算法的优化最终需要通过硬件来体现。小米作为硬件厂商,在软硬件协同优化方面具有天然优势。
利用专用硬件加速器:现代智能手机SoC(系统级芯片)中集成了专为AI计算设计的NPU。这些NPU对低精度整数运算(如INT8、INT4)有专门的硬件指令集优化,可以实现极高的计算吞吐量和能效比 [[136]][[137]][[138]]。小米的端侧部署框架能够充分调用这些NPU,实现对量化后模型的硬件级加速 [[139]]。虽然官方未明确列出MiMo-V2-Flash支持的硬件列表,也未指明其在端侧部署时是否指定了如高通Snapdragon 8 Gen 4 NPU等具体型号 [[140]],但可以确定的是,其部署方案必然是深度适配了主流旗舰移动平台上的NPU。
软硬件协同设计:小米强调,其模型设计会考虑设备端芯片的特性 [[141]][[142]]。这意味着在设计MiMo模型的网络结构时(如注意力头的数量、FFN层的宽度等),就已经考虑到了目标硬件(如某款NPU)的计算单元特性、内存带宽和缓存大小,从而设计出“硬件友好”的模型结构,避免因结构与硬件不匹配导致的性能瓶颈。
异构计算:对于复杂的AI任务,小米的部署框架不会将所有计算都压在NPU上,而是会根据算子的特性,智能地将其分配到CPU、GPU、NPU、DSP等不同的计算单元上,实现并行处理和负载均衡,从而达成系统级的最优性能和能效 [[143]][[144]]。
通过算法、软件框架和底层硬件的垂直整合与深度协同,小米构建了一套高效的端侧AI部署体系,这是其能够将越来越强大的MiMo模型成功落地到终端设备的核心竞争力。
第四章:性能评估与基准测试分析
任何大模型的价值最终都需要通过客观的性能评估来衡量。小米MiMo系列模型自诞生之日起,就以其在多个权威基准测试中“越级挑战”的惊艳表现而闻名。本章将系统梳理并分析MiMo系列在推理能力、通用能力及多模态能力等方面的公开评测数据,并对其行业地位进行客观评价。
4.1 推理能力专项评测:树立“推理王者”形象
小米从一开始就将“推理”作为MiMo的核心标签,并选择在最具挑战性的数学和代码生成基准上证明自己。
4.1.1 数学推理:征服AIME竞赛级难题
AIME(美国数学邀请赛)是公认的极具挑战性的高中数学竞赛,其题目需要复杂的逻辑推理、多步演绎和创造性解题思路。将AIME题目作为评测基准,可以极大地考验模型的深度推理能力。
- MiMo-7B-RL 在AIME 2024和2025年基准测试中,得分分别达到了惊人的68.2%和55.4% [[145]][[146]][[147]]。
- 性能超越:更令人瞩目的是,在AIME 24-25评测中,参数仅为7B的MiMo模型,其表现超越了OpenAI的闭源模型o1-mini以及阿里Qwen系列参数高达32B的QwQ-32B模型 [[148]][[149]][[150]]。
此外,在另一个广受认可的数学推理基准GSM8K(小学数学应用题)上,MiMo-7B的准确率也达到了89.3% [[151]],同样处于业界领先水平。这些数据无可辩驳地证明了MiMo模型在数学推理这一硬核能力上的卓越实力。
4.1.2 代码生成:LiveCodeBench上的优异表现
LiveCodeBench是一个模拟真实编程竞赛环境的基准测试,它要求模型根据题目描述生成能够通过所有测试用例的正确代码,极度考验模型的代码理解、算法设计和实现能力。
- 性能对比:在LiveCodeBench v5评测中,MiMo-7B同样展现了超越更大规模模型的性能,击败了o1-mini和QwQ-32B [[152]][[153]][[154]]。
- 具体指标:在另一个代码生成基准HumanEval上,MiMo-7B-RL的一次通过率(pass@1)相较于OpenAI的o1-mini提升了23% [[155]],这是一个非常显著的优势,意味着其生成的代码质量更高,更接近人类程序员的水平。
同时,MiMo-7B的推理速度比Llama3-8B快40% [[156]],这再次印证了其在模型结构和推理优化上的独到之处,实现了性能与效率的兼得。
4.2 通用与多模态能力评测
除了在专项推理能力上大放异彩,小米MiMo系列在通用语言能力和多模态理解方面也表现不俗。
BIG-Bench Hard (BBH):这是一个包含了多种复杂推理任务的综合性基准。MiMo-7B的基础模型(MiMo-7B-Base)在此基准上取得了75.2分的成绩,超过了当时其他同规模的开源7B模型 [[157]][[158]][[159]]显示了其良好的通用推理能力。
MiMo-VL的多模态基准表现:小米的多模态模型MiMo-VL系列,在多个高难度多模态基准上取得了SOTA或接近SOTA的成绩 [[160]][[161]][[162]]:
- MMMU:一个涵盖大学水平多学科知识的多模态问答基准。
- ChartQA / MathVista:专注于图表理解和视觉数学推理。
- ScreenSpot-v2:测试模型对手机UI界面元素的理解和定位能力,这对于实现AI Agent至关重要。
- OlympiadBench / MathVision:同样是高难度的视觉数学推理基准。 MiMo-VL在这些基准上的优异表现,证明小米已成功地将其强大的推理能力从纯文本领域迁移到了图文并茂的复杂场景中。
MiMo-Embodied的具身智能基准表现:MiMo-Embodied在29项核心具身智能基准测试中表现领先 [[163]][[164]][[165]]这些基准涵盖了感知、决策、规划、自动驾驶等多个方面,为其在机器人和智能汽车等领域的应用奠定了坚实的性能基础。
4.3 关于MMLU与HellaSwag得分的考察
MMLU(大规模多任务语言理解)和HellaSwag(常识推理)是业界评估大模型通用知识和常识推理能力的两个非常重要的基准测试。在本次研究中,我们特别关注了小米MiMo模型在这两个基准上的得分情况。
经过对所有搜索结果的详尽梳理,我们得出以下结论:
评估流程中包含MMLU和HellaSwag:小米官方的技术文档中明确提到,在对MiMo-7B进行预训练性能评估时,其评估任务覆盖了语言理解(MMLU、BBH)、常识推理(HellaSwag)、数学(AIME、GSM8K)和代码(LiveCodeBench)等多个维度 [[166]][[167]]。这表明小米内部是进行了相关测试的。
官方公开数据缺失:尽管评估流程中包含这两项测试,但截至2025年12月18日,在所有我们能够获取到的公开搜索结果、新闻稿和技术报告摘要中,均未找到小米官方发布的MiMo-7B或其任何变体在MMLU和HellaSwag这两个特定基准上的具体官方得分数值 [[168]][[169]][[170]]。
这一信息的缺失,可能由多种原因造成: * 战略性信息披露:小米可能选择性地优先公布其最具优势的、最能体现其“推理”特色的基准测试成绩(如AIME、LiveCodeBench),以塑造其独特的市场认知。 * 得分未达预期:也有可能MiMo-7B在这两个通用知识类基准上的表现虽然不错,但并未像其在推理任务上那样达到“惊艳”或“超越”的水平,因此未作为宣传重点。 * 数据在完整报告中:具体得分数据可能包含在完整的、非公开的技术报告中,而目前公开的摘要或新闻稿中未予披露。
无论原因为何,作为一个严谨的研究报告,我们必须指出这一信息空白。未来需要密切关注小米是否会补充发布这些数据。
4.4 性能总结与行业地位
综合来看,小米MiMo大模型系列在2025年的性能表现,为其在激烈的AI竞争中确立了清晰而稳固的行业地位:
- 推理能力的标杆:MiMo系列,特别是MiMo-7B,已成为7B参数级别乃至中等参数规模模型中,公认的数学和代码推理能力标杆。
- “以小博大”的典范:它成功证明了通过精巧的模型设计和先进的训练方法,小参数模型完全可以在特定关键任务上超越参数量大数倍的模型,为大模型的发展提供了新的思路。
- 性能与效率的平衡者:在追求卓越性能的同时,MiMo系列对推理速度和端侧部署效率的极致优化,使其在实际应用中具有更高的价值。
- 快速跟进前沿:从MiMo-7B到MiMo-V2-Flash的快速迭代,表明小米不仅能做“小而美”的特色模型,也完全具备研发和驾驭MoE这类业界最前沿复杂架构的能力。
总体而言,小米MiMo系列并非一个“水桶模型”,而是一个有着鲜明长板的“尖子生”,其在推理能力上的长板,恰好是未来AI Agent、自动化和复杂问题求解等高价值应用场景的刚需。
第五章:应用场景与商业化探索
技术最终要服务于应用。小米MiMo大模型的战略价值,最终体现在其能否深度赋能小米庞大的硬件生态,并在此基础上探索更广阔的商业化路径。本章将分析MiMo大模型在小米生态内的核心应用、当前的商业化现状以及未来的市场潜力。
5.1 核心应用:深度融入小米“人车家”全生态
小米发展大模型的首要目标,并非直接对外提供服务,而是作为其“人车家全生态”(Human × Car × Home)战略的AI基座,全面提升自有产品和服务的智能化水平 [[171]][[172]][[173]]。
- 个人设备(Human):
- 智能手机:这是MiMo大模型最先落地的场景。轻量化的MiMo模型(如MiMo-7B)已集成到小米的HyperOS 3.0中 [[174]]。其应用体现在:
- 更智能的“小爱同学”:搭载了端侧大模型的小爱同学 [[175]][[176]]能够更准确地理解用户的复杂、模糊指令,进行多轮对话,并能调用手机系统功能和第三方App,完成更复杂的任务,从一个简单的“语音助手”进化为真正的“AI助理”。
- AI内容创作与编辑:利用大模型的生成能力,实现诸如AI图片编辑(如智能消除路人)、智能视频剪辑、一键生成会议纪要和工作报告等功能 [[177]]。
- AI智能眼镜:小米AI眼镜(Hyper XiaoAi)展示了多模态智能交互能力 [[178]],背后很可能就是由MiMo-VL这类多模态模型驱动,实现实时翻译、物体识别和信息查询。
- 智能手机:这是MiMo大模型最先落地的场景。轻量化的MiMo模型(如MiMo-7B)已集成到小米的HyperOS 3.0中 [[174]]。其应用体现在:
- 智能汽车(Car): 小米汽车是MiMo大模型未来最重要的应用场景之一。
- 智能座舱:车载“小爱同学”将拥有更强的自然语言交互能力,能够理解车内多名乘客的指令,并控制车辆的各项功能。
- 自动驾驶辅助:虽然尚无证据表明MiMo直接用于端到端的自动驾驶决策,但它可以赋能自动驾驶的多个环节,例如,实时处理和理解复杂的传感器数据(如摄像头、激光雷达),辅助数据标注和模型训练,提升研发效率和系统安全性 [[179]][[180]][[181]]。MiMo-Embodied模型在感知和规划上的能力,更是直接对标了自动驾驶所需的核心技术。
- 智能家居(Home): 这是小米最具优势的领域,也是MiMo大模型大有可为的广阔天地。
- 主动智能与场景自动化:小米在2025年11月发布的Xiaomi Miloco智能家居方案,正是基于MiMo大模型(MiMo-VL-Miloco)对未来智能家庭的探索 [[182]][[183]][[184]]。它不再是被动地等待用户指令,而是能够通过学习用户的习惯,理解家庭场景,主动预测用户需求并自动执行服务。例如,当检测到主人深夜回家时,自动调暗灯光、播放舒缓音乐、并询问是否需要开启热水器。
- 万物互联的控制中枢:通过开源的声音理解大模型MiDashengLM-7B [[185]],智能音箱等中控设备可以更精准地识别来自家庭任何角落的语音指令,控制数以亿计的AIoT设备 [[186]][[187]]。
5.2 商业化部署现状分析
在对外商业化方面,小米MiMo大模型目前采取了相对谨慎和聚焦的策略。
5.2.1 缺乏明确的B2B企业客户案例
在对所有公开信息的检索中,我们发现,截至2025年12月18日,小米官方尚未发布任何关于MiMo大模型在小米生态系统之外的、具体的商业部署案例研究(Case Studies)或明确列出企业客户(Enterprise Customer Names) [[188]][[189]][[190]]。
虽然有招聘信息显示,小米正在探索大模型在市场营销、游戏、法律咨询、医疗健康等领域的落地场景 [[191]][[192]]但这更多地反映了未来的探索方向,而非已落地的商业项目。同样,尽管小米与全志科技、瑞芯微等芯片厂商有合作 [[193]],但这属于供应链层面的技术合作,不属于将MiMo作为解决方案向企业客户销售的商业部署。
5.2.2 当前商业化策略解读
这种现状反映出小米当前在大模型商业化上的策略重点:“对内赋能”优先于“对外变现”。
- 打造核心产品竞争力:小米的首要任务是利用MiMo大模型,打造自身产品(手机、汽车、AIoT)的差异化竞争优势。当用户因为体验到更智能的“小爱同学”或更贴心的智能家居而选择小米产品时,MiMo的商业价值就已经间接实现了。
- 通过开源构建生态:小米通过全面开源MiMo系列模型,意在吸引全球开发者共同参与建设。这是一种“放长线钓大鱼”的策略。当一个庞大的开发者社区围绕MiMo进行创新时,可能会涌现出小米自己未曾想到的应用,届时小米可以通过提供更专业的服务、工具链或云端算力支持来实现商业化,类似于Red Hat之于Linux的模式。
- 为未来B2B服务做准备:当前在内部生态的广泛应用,本身就是对MiMo模型能力和稳定性的最佳“实战演练”。通过解决在“人车家”场景中遇到的各种复杂问题,小米正在打磨一套成熟的、经过验证的行业解决方案。未来,当模型和工具链足够成熟时,将这些解决方案打包成B2B服务,向其他行业(如零售、制造、服务业)输出,将是水到渠成的事情。
5.3 用户采纳与市场影响
由于MiMo大模型主要是以技术基座的形式嵌入到小米的硬件产品和操作系统中,因此很难有独立的“MiMo用户采纳量”指标。但我们可以通过一些代理指标来观察其潜在的市场影响。
小爱同学月活跃用户(MAU):小爱同学是MiMo大模型能力最直接的用户触点。搜索结果提到,小爱同学的MAU持续增长 [[194]][[195]]。随着MiMo的深度赋能使其体验发生质的飞跃,可以预见其用户活跃度和粘性将进一步提升。这一庞大的用户基数,也为MiMo模型的持续迭代提供了海量的、真实的交互数据。
AIoT平台连接设备数:小米的AIoT平台连接设备数量持续保持全球领先 [[196]]。每一个连接的设备,都是MiMo大模型潜在的感知末梢和执行单元。MiMo的加持,将使这个庞大的网络从“连接”走向“智能”,从而极大地提升小米AIoT生态的整体价值和壁垒。
对行业的影响:小米MiMo系列,特别是其在端侧部署上的成功实践,对整个AI和消费电子行业产生了深远影响。它向市场证明了,不依赖昂贵云端算力的、高性能的端侧AI是完全可行的。这可能会引领一波新的行业趋势,推动其他手机和设备厂商加速其端侧大模型的研发和部署,从而共同推动“边缘AI”时代的到来 [[197]]。
5.4 AI 驱动的桌面个性化与创意工具
除了小米”人车家”生态内的核心应用,2025 年还涌现出一批面向消费级桌面与 UI 个性化的 AI 工具,这些应用同样是推理大模型能力向下扩散的产物。它们不绑定硬件、不依赖云端重型算力,而是聚焦于”小而美”的桌面级创意任务,从侧面验证了 MiMo 这类”推理+端侧”模型的更广阔应用空间。
其中一个具有代表性的案例是 Cursorhero:一款 AI 鼠标指针生成器。用户只需用自然语言描述自己想要的风格(如”赛博朋克霓虹”、“水彩极简”、“像素风地牢”),AI 即可在数秒内生成一套包含 10 种状态(箭头、文本选择、链接手型、精确十字、忙碌指示、调整大小等)的原生 Windows 鼠标指针包,并自动处理透明度、热点(hotspot)映射和 Windows 一键安装(.cur + install.inf)。这种”用文字描述 → 直接得到可用的桌面资产”的体验,本质上与 MiMo 驱动的”AI 图片编辑”、“智能视频剪辑”是同一条技术路径——把大模型的生成能力下沉到日常软件的具体使用场景中。
这类工具的共同特点值得关注:
- 轻量级、低门槛:不依赖云端重型模型,单次生成成本极低,更接近”工具”而非”服务”;
- 即时反馈、所见即所得:用户输入描述后秒级看到结果,所见即所得;
- 原生输出、即装即用:产物是可直接安装使用的桌面资产,而非需要二次加工的素材;
- 隐私友好、本地化优先:与 MiMo 的端侧部署理念一致,强调用户数据不外传。
对小米 MiMo 而言,这类应用是一面镜子:当推理能力被小型化、轻量化到极致,“AI 重塑一切软件”的图景就不再停留在演示视频里,而会真正渗透到用户的每一个日常操作中——从 HyperOS 的端侧大模型,到 Cursorhero 这类桌面创意工具,可以看到同一条”推理 + 端侧 + 消费级”的演进路径。这也意味着,MiMo 未来在”人车家”之外,向更广泛的桌面与创意软件领域输出能力的想象空间,是真实存在的。
第六章:总结与展望
经过对2025年全年所有关于小米MiMo大模型公开信息的系统性梳理与深度分析,本报告在此对核心研究结论进行总结,并对未来的发展趋势和尚待解决的问题进行展望。
6.1 核心研究结论
战略清晰,定位独特:小米MiMo大模型并未陷入参数竞赛,而是确立了以“推理能力”为矛、以“端侧部署”为盾的差异化竞争战略。这一战略与小米的硬件生态高度协同,旨在通过AI重塑“人车家”全场景的智能体验。
技术实力强劲,成果卓著:从7B的推理先锋MiMo-7B,到3090亿参数的MoE巨擘MiMo-V2-Flash,再到多模态的MiMo-VL和具身智能的MiMo-Embodied,小米在2025年展现了其在基础大模型领域的全面技术实力和快速迭代能力。尤其是在数学、代码等高难度推理任务上,MiMo模型“以小博大”的性能表现,已达到世界顶尖水平。
端侧部署技术领先:小米围绕轻量化和端侧部署,构建了从模型压缩算法(如TransAct剪枝、自研量化方法)、训练优化器(如ScaledAdam)到软硬件协同框架(如HyperOS AI子系统)的全栈技术体系。这是其将强大AI能力普惠至亿万用户的核心保障。
应用聚焦内部生态,商业化尚在早期:目前,MiMo大模型的核心应用场景是赋能小米自身的手机、汽车和AIoT产品。尽管其开源战略为未来构建开放生态奠定了基础,但截至报告发布之日,尚无公开的外部企业商业部署案例,其对外商业化进程仍处于探索和准备阶段。
6.2 待解问题与研究空白
尽管本报告已尽力整合所有信息,但仍存在一些未能完全解答的问题和研究空白,这些也是未来需要持续关注的方向:
关键基准得分缺失:小米官方始终未公布MiMo-7B等模型在MMLU和HellaSwag这两个通用语言理解与常识推理核心基准上的具体得分。这使得我们无法全面评估其与业界其他模型在通用能力上的优劣。
端侧部署技术细节模糊:关于MiMo-V2-Flash等最新模型在端侧部署时,具体采用了何种量化算法(是自研方法还是GPTQ/AWQ的变体?)、量化精度(INT4的具体实现细节?),以及官方推荐或支持的硬件加速器型号列表,仍缺乏详细的官方技术文档支持。
训练数据与成本:虽然有提及MiMo-7B使用了2000亿Tokens数据,但关于小米整个MiMo系列模型训练所使用的数据集构成、清洗策略、以及具体的算力投入和训练成本,外界知之甚少。这些信息对于理解其模型能力来源至关重要。
商业化路线图不明确:小米未来是否会推出针对企业客户的MiMo大模型商业服务?其收费模式将是怎样的?商业化的时间表和路线图如何规划?这些问题都有待小米官方给出更清晰的解答。
6.3 未来展望
站在2025年末的时间节点,展望未来,小米MiMo大模型的发展路径充满想象空间。
“人车家”生态的深度融合:预计在2026年,我们将看到MiMo大模型更深度、更无缝地融入小米的各类新产品中。搭载了更强端侧大模型的小米15系列手机、具备更高级别智能座舱和辅助驾驶能力的小米新一代汽车,以及由Xiaomi Miloco方案驱动的全屋智能2.0,都将是大概率事件。MiMo将成为连接和驱动小米生态运转的“智能中枢神经”。
模型能力的持续进化:随着MiMo-V2-Flash的发布,小米已掌握MoE架构。未来,小米可能会推出激活参数更小、总参数更大的MoE模型,进一步降低端侧部署的门槛。同时,在多模态和具身智能领域,我们期待看到能够理解视频、甚至能与物理世界进行更复杂交互的下一代MiMo模型。
开源生态的开花结果:随着MiMo模型在开源社区影响力的扩大,预计2026年将涌现出更多基于MiMo的第三方应用和创新项目。小米可能会适时推出开发者扶持计划、应用商店或云端API服务,开始其生态商业化的第一步。
从“赋能自己”到“赋能他人”:当小米在内部生态中将MiMo的能力打磨成熟后,向外输出技术能力将是必然选择。小米可能会率先从与自身业务关联紧密的行业(如零售、制造业)切入,提供定制化的AI解决方案,从而开启其B2B商业化的新篇章。
结论: 2025年,小米通过MiMo系列大模型,成功地在AI赛道上画出了属于自己的、清晰而有力的轨迹。它没有选择跟随,而是选择了开创一条更贴近用户、更注重实际应用价值的道路。这条道路或许不会在短期内带来直接的财务回报,但它正在为小米的下一个十年,构建一个由AI驱动的、坚不可摧的智能生态护城河。MiMo的未来,值得整个科技行业密切关注。