小米发布具身大模型 MiMo-Embodied 并开源
小米发布具身大模型 MiMo-Embodied 并开源:打通自动驾驶与机器人智能的“通用大脑”
2025年11月21日,小米集团在“小米技术”官方公众号上正式发布其自主研发的具身大模型 MiMo-Embodied,并宣布该模型将全面开源。这一举措不仅彰显了小米在人工智能前沿领域的雄心,更被视为通用具身智能(General Embodied Intelligence)发展史上的一个里程碑事件。MiMo-Embodied 被定位为业界首个成功打通自动驾驶与具身智能两大领域的跨域基座模型,标志着通用智能体的研究正从“垂直领域专用”的孤岛模式,迈向“跨域能力协同”的新纪元。
一、 破局:终结“室内外智能割裂”的行业痛点
随着智能家居机器人的普及和自动驾驶技术的加速落地,一个长期困扰行业的核心问题日益凸显:物理世界的智能为何要被人为地分割?家庭服务机器人精通室内导航和物体操作,却对复杂的交通规则和高速动态环境束手无策;而自动驾驶系统能精准感知车流和规划路径,却难以理解“拿起水杯”这种精细的可供性(Affordance)。这两种智能如同两条平行线,互不相通,导致研发资源重复投入,且无法构建出真正适应全场景的“通用智能体”。
针对这一根本性难题,小米具身智能团队提出了一个革命性的解决方案——统一建模。MiMo-Embodied 的核心目标就是打造一个能够同时理解室内交互与室外驾驶的“通用大脑”,让知识和能力可以在不同场景间自由迁移与协同。
二、 技术突破:三大核心亮点构筑“全能型”基座模型
MiMo-Embodied 的卓越性能源于其创新的架构设计和训练范式,主要体现在以下三大核心技术亮点:
跨域能力覆盖:一套权重,通吃两大场景
MiMo-Embodied 最显著的特点是其前所未有的任务广度。它在同一套模型参数下,同步支持:- 具身智能三大核心任务:可供性推理(理解物体如何被使用,如“哪个把手可以打开柜门”)、任务规划(分解复杂指令,如“请把客厅的遥控器拿到卧室充电”)、空间理解(精确把握物体间的相对位置和三维关系)。
- 自动驾驶三大关键任务:环境感知(识别车辆、行人、交通标志等)、状态预测(预判其他交通参与者的未来行为)、驾驶规划(生成安全、高效的行驶路径)。
这种“一套模型,两类任务”的设计,彻底打破了传统专用模型的壁垒,为全场景智能提供了坚实的技术底座。
- 双向协同赋能:知识迁移开启智能融合新思路
小米团队通过实验证明,MiMo-Embodied 实现了真正的“双向赋能”。例如,模型在自动驾驶中学到的“博弈论”和“长时序预测”能力,可以迁移到具身智能中,帮助机器人更好地预测人类用户的意图;反之,机器人在室内环境中积累的“精细化空间操作”和“部件级物体理解”经验,也能反哺自动驾驶系统,使其对路边停放车辆或施工区域的理解更为深刻。这种知识转移的协同效应,为开发更鲁棒、更灵活的智能系统开辟了全新的技术路径。 全链优化可靠:多阶段训练保障真实世界表现
为了确保模型在复杂多变的真实环境中稳定可靠,MiMo-Embodied 采用了名为“具身/自驾能力学习 → CoT 推理增强 → RL 精细强化”的多阶段训练策略。- 第一阶段:在海量的通用视觉、具身任务和驾驶场景数据集上进行基础能力学习。
- 第二阶段:引入“思维链”(Chain-of-Thought, CoT),强制模型在决策前输出推理过程,极大提升了其逻辑性和可解释性。
- 第三阶段:利用强化学习(Reinforcement Learning, RL)在高保真模拟器中进行精细调优,让模型在试错中学习最优策略,从而显著提升其在真实部署中的安全性与可靠性。
三、 性能卓越:29项基准测试全面领先,树立开源新标杆
MiMo-Embodied 的实力在严格的科学评测中得到了充分验证。在涵盖感知、决策与规划的 29 项核心基准测试(Benchmarks) 中,该模型全面超越了现有的开源模型、闭源商业模型以及各类专用模型,确立了开源基座模型的性能新标杆。
- 在具身智能领域:于 17 个国际主流基准测试中取得最先进水平(SOTA),例如在
RoboRefIt(物体指代定位)、Part-Afford(部件功能理解)和EgoPlan2(第一人称视角任务规划)等任务上,其精度和成功率均刷新纪录,重新定义了机器人认知的能力边界。 - 在自动驾驶领域:于 12 个关键基准测试中表现卓越,实现了从环境感知到驾驶规划的全链路性能突破,在
nuScenes(复杂城市驾驶)和Waymo Open Dataset(大规模多传感器感知)等权威榜单上名列前茅。 - 在通用能力方面:作为强大的多模态基础模型,MiMo-Embodied 在通用视觉语言理解任务上也展现了卓越的泛化性,证明了其扎实的基础能力。
值得一提的是,该项目由小米智驾团队首席科学家陈龙博士领导,郝孝帅担任核心贡献第一作者。模型基于此前罗福莉团队发布的 MiMo-VL 视觉语言模型继续训练而成,体现了小米内部AI研究力量的协同与传承。
四、 全面开源:共建具身智能生态
为推动整个行业的进步,小米选择将 MiMo-Embodied 全面开源。开发者现已可通过 Hugging Face 等平台获取包含 70亿参数 的基础模型、完整的训练代码与预训练权重。小米特别强调,模型设计充分考虑了硬件适配性,支持在消费级GPU上高效部署,这极大地降低了中小企业和学术研究机构的研发门槛。
目前,小米已计划将 MiMo-Embodied 应用于自研产品中,包括新一代扫地机器人、工厂AGV物流车,并有望在2026年第一季度通过OTA升级赋能SU7车型的高阶智能驾驶系统。同时,开放的API接口将为家居、移动出行、智能制造等领域的开发者提供强大的跨域智能底座,共同探索通用具身智能的无限可能。
小米MiMo-Embodied的发布与开源,不仅是技术上的重大突破,更是生态构建的关键一步。它向世界宣告:一个能够跨越物理场景、融会贯通各类技能的“通用智能体”时代,正在加速到来。