3月19日凌晨,小米宣布推出三款大模型,分别为MiMo-V2-Pro、Omni与TTS。

据官方介绍,Xiaomi MiMo-V2-Pro是专为现实世界中高强度的Agent工作场景设计的。该模型总参数量超1T(激活参数42B),采用创新混合注意力架构,支持1M超长上下文长度。小米还在更广泛的Agent场景中持续扩展算力,进一步拓展了智能的动作空间,实现了从编程(Coding)到机械爪操作(Claw)的重要能力泛化。在Artificial Analysis全球大模型综合智能排行榜上,MiMo-V2-Pro位列全球第八、国内第二。
Xiaomi MiMo-V2-Omni模型融合了文本、视觉、语音的全模态感知与行动能力,原生具备多模态感知、工具调用、函数执行及GUI操作能力,可无缝接入各类Agent框架,显著降低了全模态Agent的应用门槛。在匿名内测阶段,该模型凭借强大的感知与推理能力,在OpenRouter平台上的调用量持续增长,并在OpenClaw测评榜单上取得均分第一的成绩。
Xiaomi MiMo-V2-TTS语音合成大模型专为全模态交互设计,通过自研Audio Tokenizer和多码本语音-文本联合建模架构,实现了高度可控的多粒度语音风格控制。该模型支持从整体风格到局部情绪的精准调节,能够真实还原人类说话的自然韵律,在唱歌场景中也能准确表达音高和节奏,展现出自然且富有表现力的语音生成能力。
当日早间,雷军发文回应小米AI大模型相关进展。他表示,小米刚发布万亿参数大模型Mimo-V2-Pro,在Artificial Analysis全球大模型综合智能排行榜上位列全球第八,按品牌排名则位居全球第五,超过xAI Grok。他提到,该模型刚刚完成发布,未来将持续快速迭代增强。雷军还指出,小米在AI领域相对低调,但实际进展可能比外界看到的更快,并透露小米今年在AI领域的研发和资本投入将超过160亿元。