2026-04-29 · 模型解读 · 更新于 2026-07-05 · 约 6 分钟阅读 · 编辑: MiMo AI 社区

小米 MiMo-V2.5 系列全面解读:Pro · Omni · TTS

📢 开源公告: 2026 年 4 月 29 日,小米正式开源 MiMo-V2.5 系列,包含 Pro、Omni、TTS 三款模型,均采用 MIT 协议,支持商用推理部署与二次训练,无需额外授权。同时启动 Orbit 百万亿 Token 计划

一、系列概览

MiMo-V2.5 系列是小米在 2026 年 4 月推出的旗舰级大模型系列,是继 2025 年 12 月 V2-Flash 发布后的又一次重大迭代。本次发布包含三款定位各异的模型,覆盖了从纯文本推理到全模态理解再到语音合成的完整能力矩阵:

三款模型均采用 MIT 开源协议,支持商用推理部署与二次训练,无需额外授权。这意味着企业可以将 MiMo 模型直接集成到自己的产品中而不受许可限制——这是小米与许多其他国产大模型厂商的关键区别。

二、MiMo-V2.5-Pro:Agent 时代旗舰

2.1 核心规格

参数数值
总参数超 1T(万亿)
上下文窗口1M tokens(业界领先)
架构MoE(混合专家)
开源协议MIT
核心优化方向Agent 场景(工具调用、多步推理、长程任务)

2.2 技术亮点

值得一提的是,V2.5-Pro 在多项权威基准测试中表现优异。在 MATH-500 数学推理基准上达到了 94.2% 的准确率,在 HumanEval 代码生成上达到了 88.7% 的 pass@1,在 MMLU-Pro 综合知识上取得了 86.3% 的成绩。这些数据表明,V2.5-Pro 已经跻身全球第一梯队大模型之列。

三、MiMo-V2.5-Omni:全模态理解与生成

V2.5-Omni 是小米的全模态基座模型,突破了传统多模态模型的模态限制,采用统一的 Transformer 架构处理所有输入和输出模态:

在技术实现上,V2.5-Omni 采用了一种创新的多模态 tokenizer,将不同模态的数据映射到统一的表示空间中。图像和视频通过时空编码器转换为连续的 token 序列,音频通过波形编码器处理,文本则使用标准的分词器。训练阶段采用多阶段策略:先进行模态对齐预训练,再进行多模态指令微调,最后通过 RLHF 优化输出质量。

在实际测试中,V2.5-Omni 在视频问答(Video-MME)上取得了 72.3% 的准确率,在图像描述(COCO Caption)上 CIDEr 分数达到 138.5,在音频分类(AudioSet)上 mAP 达到 48.6。这些成绩表明 V2.5-Omni 在跨模态理解上已经达到了业界的领先水平。

四、MiMo-V2.5-TTS:高表现力语音合成

V2.5-TTS 是小米推出的高表现力语音合成大模型,专注于生成自然流畅、富有情感和韵律感的语音输出。它基于自研的神经声学架构,将文本直接映射到高保真音频:

从技术架构来看,V2.5-TTS 采用了基于 Transformer 的编解码架构,结合了扩散模型用于声学特征生成。与传统的拼接式 TTS 系统不同,它端到端地从文本直接生成高质量语音,无需单独的音素对齐和声码器处理。模型在超过 10 万小时的多语种、多说话人数据上训练,支持零样本语音克隆——只需 3 秒的参考音频即可模仿目标说话人的音色和风格。

在主观听感测试(CMOS)中,V2.5-TTS 的合成语音在自然度和情感表现力上达到了 4.52/5 的评分,接近专业配音演员的水平。在方言合成方面,模型能够准确捕捉各地方言的独特韵律和发音特征——例如吴语的浊音系统和粤语的六调九韵格局。

五、与 V2-Flash 对比

维度V2-Flash (2025.12)V2.5-Pro (2026.04)
总参数309B1T+
激活参数15B未公开(MoE)
上下文56k1M
推理速度150 tok/sUltraSpeed 1000+ tps
核心定位高速 MoE 推理Agent 旗舰 + 超长上下文
Agent 优化基础深度(SFT + RL)

六、API 定价

MiMo-V2.5 系列 API 于 2026 年 5 月 27 日进行永久降价:

模型输入 (per M tokens)输出 (per M tokens)
MiMo-V2.5-Pro$1.00$3.00
MiMo-V2.5-Omni$1.50$4.00

查看完整 API 接入步骤:MiMo API 接入指南 →

七、Orbit 百万亿 Token 计划

与 V2.5 系列开源同步启动的 Orbit 计划,是小米面向 AI 生态的长期战略投资。该计划的核心目标是降低 MiMo 生态的开发门槛,吸引更多研究者和开发者参与到模型的微调、适配和创新应用中:

Orbit 计划的申请流程简单透明:开发者只需提交项目提案,说明使用的数据集、训练计划和应用场景,审核通过后即可获得对应的计算资源配额。截至 2026 年 7 月,已有超过 200 个团队提交了申请,涵盖代码生成、医疗诊断辅助、法律文书分析等多个领域。

八、应用场景与生态展望

MiMo-V2.5 系列的发布不仅仅是模型性能的提升,更代表了小米 AI 战略从"模型能力"向"生态应用"的转变。以下是几个典型的应用场景展望:

展望未来,MiMo 系列的路线图上有几个值得关注的方向:更大规模的模型(传闻中的 V3 系列)、更深度的端侧优化(面向手机和 IoT 设备的蒸馏版本)、以及更丰富的多模态能力(包括 3D 理解和视频生成)。作为社区站点,我们将持续跟进这些动态并为中文开发者提供第一手解读。

Sponsored GPU Resources

以下 GPU 算力平台支持快速部署 MiMo 模型,新用户注册享免费额度:

⚡ OpenBayes · RTX 4090 免费试用 🌊 DigitalOcean · $200 免费额度 🖥️ Vultr GPU · $250 试用金

通过以上链接注册,本站可能获得小额返佣,用于支持社区运营。不影响你的使用价格。

通过以上链接注册,本站可能获得小额返佣,用于支持社区运营。不影响你的使用价格。