2026-04-29 · 模型解读 · 更新于 2026-07-05 · 约 6 分钟阅读 · 编辑: MiMo AI 社区

小米 MiMo-V2.5 系列全面解读：Pro · Omni · TTS

      📢 开源公告： 2026 年 4 月 29 日，小米正式开源 MiMo-V2.5 系列，包含 Pro、Omni、TTS 三款模型，均采用 MIT 协议，支持商用推理部署与二次训练，无需额外授权。同时启动 Orbit 百万亿 Token 计划。
    

一、系列概览

MiMo-V2.5 系列是小米在 2026 年 4 月推出的旗舰级大模型系列，是继 2025 年 12 月 V2-Flash 发布后的又一次重大迭代。本次发布包含三款定位各异的模型，覆盖了从纯文本推理到全模态理解再到语音合成的完整能力矩阵：

MiMo-V2.5-Pro：面向 Agent 场景深度优化的旗舰基座模型，超 1T 总参数，1M 上下文窗口，定位为"AI 智能体的推理引擎"
MiMo-V2.5-Omni：全模态基座模型，支持图像、视频、音频、文本的端到端理解与生成，是小米在多模态领域的旗舰产品
MiMo-V2.5-TTS：语音合成大模型，支持中英双语及多种中国方言，面向语音交互场景

三款模型均采用 MIT 开源协议，支持商用推理部署与二次训练，无需额外授权。这意味着企业可以将 MiMo 模型直接集成到自己的产品中而不受许可限制——这是小米与许多其他国产大模型厂商的关键区别。

二、MiMo-V2.5-Pro：Agent 时代旗舰

2.1 核心规格

参数	数值
总参数	超 1T（万亿）
上下文窗口	1M tokens（业界领先）
架构	MoE（混合专家）
开源协议	MIT
核心优化方向	Agent 场景（工具调用、多步推理、长程任务）

2.2 技术亮点

Agent 深度优化：针对复杂多样的 Agent Scaffold 进行 SFT & RL，具备更强的工具调用与多步推理能力。MiMo-V2.5-Pro 在 BFCL V3、TauBench 和 SWE-Bench Verified 等 Agent 基准测试中均取得领先成绩，特别是在多工具编排和错误恢复场景上表现突出。
1M 超长上下文：可处理整本书、大型代码库级别的输入。通过优化的稀疏注意力机制和分级 KVCache 管理，1M token 输入下的推理延迟仅比 128K 输入增加约 40%，而非线性增长。这使得它在处理超长文档、大型代码库和长对话历史时具有显著优势。
UltraSpeed 模式：通过模型与系统极致协同设计，将生成速度推向 1000+ TPS。这一模式利用了小米自研的推理引擎优化，包括 FP8 量化、动态投机解码和预填充-解码流水线并行等技术，使得旗舰级模型也能获得近乎实时的响应速度。
Hybrid SWA 优化：推理全链路工程化实践，覆盖 KVCache 管理、分级缓存系统、调度策略。Hybrid Sliding Window Attention 结合了全局注意力和滑动窗口注意力的优势，在长序列场景下既保持了推理质量又大幅降低了计算开销。

值得一提的是，V2.5-Pro 在多项权威基准测试中表现优异。在 MATH-500 数学推理基准上达到了 94.2% 的准确率，在 HumanEval 代码生成上达到了 88.7% 的 pass@1，在 MMLU-Pro 综合知识上取得了 86.3% 的成绩。这些数据表明，V2.5-Pro 已经跻身全球第一梯队大模型之列。

三、MiMo-V2.5-Omni：全模态理解与生成

V2.5-Omni 是小米的全模态基座模型，突破了传统多模态模型的模态限制，采用统一的 Transformer 架构处理所有输入和输出模态：

支持模态：图像、视频、音频、文本，支持任意组合的输入与生成。这意味着你可以输入一段视频+文字指令，模型能直接生成带有时间戳的描述文本和语音输出
端到端训练：统一的 Transformer 架构处理所有模态，无需分立的编码器-解码器。这种设计避免了传统"拼接式"多模态模型中不同模态之间的信息损耗问题
应用场景：视频理解与摘要、图像分析与描述、音频事件检测、跨模态检索、图文生成等

在技术实现上，V2.5-Omni 采用了一种创新的多模态 tokenizer，将不同模态的数据映射到统一的表示空间中。图像和视频通过时空编码器转换为连续的 token 序列，音频通过波形编码器处理，文本则使用标准的分词器。训练阶段采用多阶段策略：先进行模态对齐预训练，再进行多模态指令微调，最后通过 RLHF 优化输出质量。

在实际测试中，V2.5-Omni 在视频问答（Video-MME）上取得了 72.3% 的准确率，在图像描述（COCO Caption）上 CIDEr 分数达到 138.5，在音频分类（AudioSet）上 mAP 达到 48.6。这些成绩表明 V2.5-Omni 在跨模态理解上已经达到了业界的领先水平。

四、MiMo-V2.5-TTS：高表现力语音合成

V2.5-TTS 是小米推出的高表现力语音合成大模型，专注于生成自然流畅、富有情感和韵律感的语音输出。它基于自研的神经声学架构，将文本直接映射到高保真音频：

语言支持：中英双语 + 吴语、粤语、闽南语、四川话等多种中国方言。方言合成在自然度上达到了令人惊讶的水平——母语者测试中，粤语和吴语的自然度评分接近真人录音
自然度：在自然度和表现力上达到业界领先水平。V2.5-TTS 能够根据文本语义自动调整语速、音调和停顿，在情感表达上——如疑问、惊讶、感叹等语气——都能准确传递。
适用场景：语音助手、有声内容生成、无障碍阅读、车载语音交互、智能家居语音反馈等

从技术架构来看，V2.5-TTS 采用了基于 Transformer 的编解码架构，结合了扩散模型用于声学特征生成。与传统的拼接式 TTS 系统不同，它端到端地从文本直接生成高质量语音，无需单独的音素对齐和声码器处理。模型在超过 10 万小时的多语种、多说话人数据上训练，支持零样本语音克隆——只需 3 秒的参考音频即可模仿目标说话人的音色和风格。

在主观听感测试（CMOS）中，V2.5-TTS 的合成语音在自然度和情感表现力上达到了 4.52/5 的评分，接近专业配音演员的水平。在方言合成方面，模型能够准确捕捉各地方言的独特韵律和发音特征——例如吴语的浊音系统和粤语的六调九韵格局。

五、与 V2-Flash 对比

维度	V2-Flash (2025.12)	V2.5-Pro (2026.04)
总参数	309B	1T+
激活参数	15B	未公开（MoE）
上下文	56k	1M
推理速度	150 tok/s	UltraSpeed 1000+ tps
核心定位	高速 MoE 推理	Agent 旗舰 + 超长上下文
Agent 优化	基础	深度（SFT + RL）

六、API 定价

MiMo-V2.5 系列 API 于 2026 年 5 月 27 日进行永久降价：

模型	输入 (per M tokens)	输出 (per M tokens)
MiMo-V2.5-Pro	$1.00	$3.00
MiMo-V2.5-Omni	$1.50	$4.00

查看完整 API 接入步骤：MiMo API 接入指南 →

七、Orbit 百万亿 Token 计划

与 V2.5 系列开源同步启动的 Orbit 计划，是小米面向 AI 生态的长期战略投资。该计划的核心目标是降低 MiMo 生态的开发门槛，吸引更多研究者和开发者参与到模型的微调、适配和创新应用中：

投入 100 万亿 Token 规模的计算资源，分批次向社区开放
支持社区贡献者、研究机构和企业用户在 MiMo 模型上进行微调、对齐和二次训练
推动 MiMo 生态的模型微调、应用开发和学术研究，涵盖医疗、金融、教育、法律等行业场景
入选项目可获得免费算力支持、技术指导和 HuggingFace 模型库推广资源

Orbit 计划的申请流程简单透明：开发者只需提交项目提案，说明使用的数据集、训练计划和应用场景，审核通过后即可获得对应的计算资源配额。截至 2026 年 7 月，已有超过 200 个团队提交了申请，涵盖代码生成、医疗诊断辅助、法律文书分析等多个领域。

八、应用场景与生态展望

MiMo-V2.5 系列的发布不仅仅是模型性能的提升，更代表了小米 AI 战略从"模型能力"向"生态应用"的转变。以下是几个典型的应用场景展望：

智能编程：V2.5-Pro + MiMo Code 的组合为开发者提供了一站式的 AI 编程体验，从代码生成到调试再到代码审查均可由 AI 辅助完成
多模态内容创作：V2.5-Omni 使创作者可以同时处理图像、视频、音频和文本，实现跨模态的内容编辑和生成
智能家居语音交互：V2.5-TTS 结合小米的 IoT 生态，为智能音箱、智能家电和车载系统提供更自然的语音交互体验
企业级 Agent 应用：V2.5-Pro 的强大 Agent 能力使其成为构建客服机器人、自动化流程代理和数据智能助手的理想基座
学术研究：MIT 开源协议和 Orbit 计划为高校和研究机构提供了极佳的实验平台，推动大模型学术研究的前沿探索

展望未来，MiMo 系列的路线图上有几个值得关注的方向：更大规模的模型（传闻中的 V3 系列）、更深度的端侧优化（面向手机和 IoT 设备的蒸馏版本）、以及更丰富的多模态能力（包括 3D 理解和视频生成）。作为社区站点，我们将持续跟进这些动态并为中文开发者提供第一手解读。