小米 MiMo-V2.5 系列全面解读:Pro · Omni · TTS
一、系列概览
MiMo-V2.5 系列是小米在 2026 年 4 月推出的旗舰级大模型系列,是继 2025 年 12 月 V2-Flash 发布后的又一次重大迭代。本次发布包含三款定位各异的模型,覆盖了从纯文本推理到全模态理解再到语音合成的完整能力矩阵:
- MiMo-V2.5-Pro:面向 Agent 场景深度优化的旗舰基座模型,超 1T 总参数,1M 上下文窗口,定位为"AI 智能体的推理引擎"
- MiMo-V2.5-Omni:全模态基座模型,支持图像、视频、音频、文本的端到端理解与生成,是小米在多模态领域的旗舰产品
- MiMo-V2.5-TTS:语音合成大模型,支持中英双语及多种中国方言,面向语音交互场景
三款模型均采用 MIT 开源协议,支持商用推理部署与二次训练,无需额外授权。这意味着企业可以将 MiMo 模型直接集成到自己的产品中而不受许可限制——这是小米与许多其他国产大模型厂商的关键区别。
二、MiMo-V2.5-Pro:Agent 时代旗舰
2.1 核心规格
| 参数 | 数值 |
|---|---|
| 总参数 | 超 1T(万亿) |
| 上下文窗口 | 1M tokens(业界领先) |
| 架构 | MoE(混合专家) |
| 开源协议 | MIT |
| 核心优化方向 | Agent 场景(工具调用、多步推理、长程任务) |
2.2 技术亮点
- Agent 深度优化:针对复杂多样的 Agent Scaffold 进行 SFT & RL,具备更强的工具调用与多步推理能力。MiMo-V2.5-Pro 在 BFCL V3、TauBench 和 SWE-Bench Verified 等 Agent 基准测试中均取得领先成绩,特别是在多工具编排和错误恢复场景上表现突出。
- 1M 超长上下文:可处理整本书、大型代码库级别的输入。通过优化的稀疏注意力机制和分级 KVCache 管理,1M token 输入下的推理延迟仅比 128K 输入增加约 40%,而非线性增长。这使得它在处理超长文档、大型代码库和长对话历史时具有显著优势。
- UltraSpeed 模式:通过模型与系统极致协同设计,将生成速度推向 1000+ TPS。这一模式利用了小米自研的推理引擎优化,包括 FP8 量化、动态投机解码和预填充-解码流水线并行等技术,使得旗舰级模型也能获得近乎实时的响应速度。
- Hybrid SWA 优化:推理全链路工程化实践,覆盖 KVCache 管理、分级缓存系统、调度策略。Hybrid Sliding Window Attention 结合了全局注意力和滑动窗口注意力的优势,在长序列场景下既保持了推理质量又大幅降低了计算开销。
值得一提的是,V2.5-Pro 在多项权威基准测试中表现优异。在 MATH-500 数学推理基准上达到了 94.2% 的准确率,在 HumanEval 代码生成上达到了 88.7% 的 pass@1,在 MMLU-Pro 综合知识上取得了 86.3% 的成绩。这些数据表明,V2.5-Pro 已经跻身全球第一梯队大模型之列。
三、MiMo-V2.5-Omni:全模态理解与生成
V2.5-Omni 是小米的全模态基座模型,突破了传统多模态模型的模态限制,采用统一的 Transformer 架构处理所有输入和输出模态:
- 支持模态:图像、视频、音频、文本,支持任意组合的输入与生成。这意味着你可以输入一段视频+文字指令,模型能直接生成带有时间戳的描述文本和语音输出
- 端到端训练:统一的 Transformer 架构处理所有模态,无需分立的编码器-解码器。这种设计避免了传统"拼接式"多模态模型中不同模态之间的信息损耗问题
- 应用场景:视频理解与摘要、图像分析与描述、音频事件检测、跨模态检索、图文生成等
在技术实现上,V2.5-Omni 采用了一种创新的多模态 tokenizer,将不同模态的数据映射到统一的表示空间中。图像和视频通过时空编码器转换为连续的 token 序列,音频通过波形编码器处理,文本则使用标准的分词器。训练阶段采用多阶段策略:先进行模态对齐预训练,再进行多模态指令微调,最后通过 RLHF 优化输出质量。
在实际测试中,V2.5-Omni 在视频问答(Video-MME)上取得了 72.3% 的准确率,在图像描述(COCO Caption)上 CIDEr 分数达到 138.5,在音频分类(AudioSet)上 mAP 达到 48.6。这些成绩表明 V2.5-Omni 在跨模态理解上已经达到了业界的领先水平。
四、MiMo-V2.5-TTS:高表现力语音合成
V2.5-TTS 是小米推出的高表现力语音合成大模型,专注于生成自然流畅、富有情感和韵律感的语音输出。它基于自研的神经声学架构,将文本直接映射到高保真音频:
- 语言支持:中英双语 + 吴语、粤语、闽南语、四川话等多种中国方言。方言合成在自然度上达到了令人惊讶的水平——母语者测试中,粤语和吴语的自然度评分接近真人录音
- 自然度:在自然度和表现力上达到业界领先水平。V2.5-TTS 能够根据文本语义自动调整语速、音调和停顿,在情感表达上——如疑问、惊讶、感叹等语气——都能准确传递。
- 适用场景:语音助手、有声内容生成、无障碍阅读、车载语音交互、智能家居语音反馈等
从技术架构来看,V2.5-TTS 采用了基于 Transformer 的编解码架构,结合了扩散模型用于声学特征生成。与传统的拼接式 TTS 系统不同,它端到端地从文本直接生成高质量语音,无需单独的音素对齐和声码器处理。模型在超过 10 万小时的多语种、多说话人数据上训练,支持零样本语音克隆——只需 3 秒的参考音频即可模仿目标说话人的音色和风格。
在主观听感测试(CMOS)中,V2.5-TTS 的合成语音在自然度和情感表现力上达到了 4.52/5 的评分,接近专业配音演员的水平。在方言合成方面,模型能够准确捕捉各地方言的独特韵律和发音特征——例如吴语的浊音系统和粤语的六调九韵格局。
五、与 V2-Flash 对比
| 维度 | V2-Flash (2025.12) | V2.5-Pro (2026.04) |
|---|---|---|
| 总参数 | 309B | 1T+ |
| 激活参数 | 15B | 未公开(MoE) |
| 上下文 | 56k | 1M |
| 推理速度 | 150 tok/s | UltraSpeed 1000+ tps |
| 核心定位 | 高速 MoE 推理 | Agent 旗舰 + 超长上下文 |
| Agent 优化 | 基础 | 深度(SFT + RL) |
六、API 定价
MiMo-V2.5 系列 API 于 2026 年 5 月 27 日进行永久降价:
| 模型 | 输入 (per M tokens) | 输出 (per M tokens) |
|---|---|---|
| MiMo-V2.5-Pro | $1.00 | $3.00 |
| MiMo-V2.5-Omni | $1.50 | $4.00 |
查看完整 API 接入步骤:MiMo API 接入指南 →
七、Orbit 百万亿 Token 计划
与 V2.5 系列开源同步启动的 Orbit 计划,是小米面向 AI 生态的长期战略投资。该计划的核心目标是降低 MiMo 生态的开发门槛,吸引更多研究者和开发者参与到模型的微调、适配和创新应用中:
- 投入 100 万亿 Token 规模的计算资源,分批次向社区开放
- 支持社区贡献者、研究机构和企业用户在 MiMo 模型上进行微调、对齐和二次训练
- 推动 MiMo 生态的模型微调、应用开发和学术研究,涵盖医疗、金融、教育、法律等行业场景
- 入选项目可获得免费算力支持、技术指导和 HuggingFace 模型库推广资源
Orbit 计划的申请流程简单透明:开发者只需提交项目提案,说明使用的数据集、训练计划和应用场景,审核通过后即可获得对应的计算资源配额。截至 2026 年 7 月,已有超过 200 个团队提交了申请,涵盖代码生成、医疗诊断辅助、法律文书分析等多个领域。
八、应用场景与生态展望
MiMo-V2.5 系列的发布不仅仅是模型性能的提升,更代表了小米 AI 战略从"模型能力"向"生态应用"的转变。以下是几个典型的应用场景展望:
- 智能编程:V2.5-Pro + MiMo Code 的组合为开发者提供了一站式的 AI 编程体验,从代码生成到调试再到代码审查均可由 AI 辅助完成
- 多模态内容创作:V2.5-Omni 使创作者可以同时处理图像、视频、音频和文本,实现跨模态的内容编辑和生成
- 智能家居语音交互:V2.5-TTS 结合小米的 IoT 生态,为智能音箱、智能家电和车载系统提供更自然的语音交互体验
- 企业级 Agent 应用:V2.5-Pro 的强大 Agent 能力使其成为构建客服机器人、自动化流程代理和数据智能助手的理想基座
- 学术研究:MIT 开源协议和 Orbit 计划为高校和研究机构提供了极佳的实验平台,推动大模型学术研究的前沿探索
展望未来,MiMo 系列的路线图上有几个值得关注的方向:更大规模的模型(传闻中的 V3 系列)、更深度的端侧优化(面向手机和 IoT 设备的蒸馏版本)、以及更丰富的多模态能力(包括 3D 理解和视频生成)。作为社区站点,我们将持续跟进这些动态并为中文开发者提供第一手解读。
Sponsored GPU Resources
以下 GPU 算力平台支持快速部署 MiMo 模型,新用户注册享免费额度:
通过以上链接注册,本站可能获得小额返佣,用于支持社区运营。不影响你的使用价格。
通过以上链接注册,本站可能获得小额返佣,用于支持社区运营。不影响你的使用价格。