MiMo-Embodied— 小米推出的跨领域具身大模型

碧海醫心

发布时间：2025-11-22 17:21:38

444人浏览过

来源于php中文网

原创

mimo-embodied 是小米推出的全球首个开源跨领域具身大模型，首次将自动驾驶与具身智能两大方向深度融合，具备出色的环境感知、任务规划和空间理解能力。该模型基于视觉语言模型（vlm）架构，采用四阶段训练方法——包括具身智能监督微调、自动驾驶监督微调、链式推理微调以及强化学习微调，显著增强了在不同场景下的泛化性能。在自动驾驶方面，mimo-embodied 可精准识别交通要素、预测动态目标行为，并生成安全高效的行驶策略；在具身智能方面，能够解析自然语言指令，完成复杂的空间推理与任务执行。其在多项基准测试中表现优于现有开源及专用模型，展现出强大的多模态交互潜力。

歌歌AI写歌

支持人声克隆的AI音乐创作平台，歌歌AI写歌 - 人人都是音乐家

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
MiMo-Embodied的核心功能

跨领域协同能力：作为首个融合自动驾驶与具身智能的开源模型，MiMo-Embodied 实现了从环境感知到任务决策的全链条覆盖，适用于多变复杂的现实场景。
高精度环境感知：在交通环境中可准确识别车辆、行人、信号灯等关键对象，并预测其运动趋势，为智能驾驶提供可靠的情境理解基础。
自然语言驱动的任务规划：支持通过口语化指令驱动机器人完成导航、抓取、移动等操作，实现端到端的任务分解与动作序列生成。
深度空间推理：具备对物体间相对位置和空间结构的理解能力，可用于路径规划、避障、物品摆放等需要空间认知的应用。
多模态融合交互：结合图像、视频与文本输入，支持视觉问答、指令跟随、场景描述等多种交互形式，提升人机协作体验。
强化学习增强决策：引入 Group Relative Policy Optimization（GRPO）算法进行强化学习优化，使模型在边缘案例和高难度任务中更具鲁棒性。
全面开源开放：项目代码与模型权重已公开发布于 Hugging Face 和 GitHub，便于研究人员快速复现与二次开发，推动相关技术生态发展。

MiMo-Embodied的技术架构

统一VLM框架设计：采用视觉语言模型作为基础架构，整合视觉编码器、特征投影模块与大语言模型（LLM），实现跨模态信息的高效对齐与处理。
四阶段渐进式训练：依次经历具身任务微调、自动驾驶数据微调、思维链推理训练和强化学习优化，逐步提升模型在多样化任务中的适应能力。
视觉特征提取机制：使用 Vision Transformer（ViT）处理单帧图像、多视角输入及视频流，通过 MLP 投影层将其映射至 LLM 的语义空间，实现视觉-语言联合建模。
多元化数据支撑：构建涵盖通用视觉理解、机器人任务、自动驾驶场景的大规模多模态数据集，确保模型获得充分的跨领域监督信号。
强化学习策略优化：在最终阶段应用 GRPO 算法，针对长周期任务和不确定性环境优化策略输出，提高实际部署中的稳定性和安全性。
上下文推理与响应生成：依托 LLM 的逻辑推理能力，结合视觉输入与用户指令，生成连贯且符合情境的操作建议或决策路径。