Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步-IT新闻-PHP中文网

Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步

心靈之曲

发布： 2025-12-17 16:45:07

原创

209人浏览过

今日上午，在小米 2025人车家全生态合作伙伴大会上，xiaomi mimo大模型团队负责人罗福莉完成加盟小米后的首次公开亮相，并正式推出并开源全新moe架构大模型——mimo-v2-flash。

Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步

罗福莉随后在社交平台同步分享了关于MiMo-V2-Flash的核心技术细节：

MiMo-V2-Flash 已全面开放。这仅是我们通向通用人工智能（AGI）征程中的第二站，但其中若干关键工程决策，值得在此简要记录。

架构设计：

我们最终选定 Hybrid SWA（混合滑动窗口注意力）方案。该方案兼具简洁性与高效性，在内部长文本推理基准测试中，显著超越各类线性注意力（Linear Attention）改进版本。此外，固定 KV cache 的设计极大降低了与现有系统基础设施的集成门槛。
注：窗口长度设为128是经过充分验证的“最优值”（将窗口扩大至512反而导致性能下降）；sink tokens 机制不可或缺，切勿省略。

MTP（多Token预测）：

Magic AI Avatars

神奇的AI头像，获得200多个由AI制作的自定义头像。

查看详情

这一技术在当前高效强化学习（RL）实践中长期被低估。除首层外，MTP仅需极少量微调即可实现较高的 accept length。采用3层MTP结构后，我们在编程类任务中实测 accept length 稳定超过3，推理速度提升约2.5倍。
它有效缓解了小批量 On-Policy RL 场景下因长尾样本导致的 GPU 利用率低下问题。受限于本次发布节奏，MTP暂未嵌入完整 RL 训练流程，但其与 RL 框架天然契合。我们已将3层MTP模块完全开源，便于开发者即插即用。

基于MOPD的后训练策略：

我们引入 Thinking Machine 提出的 On-Policy Distillation（OPD）方法，用于融合多个RL训练所得模型，计算效率跃升明显——仅需传统SFT+RL联合训练流程不到1/50的算力消耗，即可复现教师模型的全部能力。
此路径已初具雏形：学生模型持续迭代进化，终将反哺成为更强大的新教师，从而构建起自我增强的正向循环。

致谢：
致敬我所带领的这支卓越团队。他们在数月之内，将一系列前沿构想从纸面推至稳定可用的工业级系统。

Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步