Xiaomi MiMo— 小米开源的首个推理大模型-人工智能-PHP中文网

Xiaomi MiMo— 小米开源的首个推理大模型

碧海醫心

发布： 2025-05-01 12:38:01

原创

948人浏览过

Xiaomi MiMo 是什么

xiaomi mimo 是小米推出的首个开源推理大模型，旨在提升模型在复杂推理任务中的表现。该模型通过联动预训练和后训练，利用大量富推理语料并应用创新的强化学习算法，显著增强了其数学推理和代码生成能力。尽管仅有 7b 参数，mimo 在公开测评集上的表现超越了 openai 的 o1-mini 和阿里 qwen 的 qwq-32b-preview 等更大规模的模型。xiaomi mimo 提供了四个模型版本，包括预训练模型 mimo-7b-base、监督微调模型 mimo-7b-sft、强化学习模型 mimo-7b-rl 和 mimo-7b-rl-zero，这些模型已在 huggingface 上开源，为开发者提供了一个强大的推理工具。

fankuan8 简洁型购物网站系统 G201205

fankuan8-简洁型购物网站系统 G201205 采用Asp+Access开发设计，设计思路前台以简洁为主导，后台以功能完善为主导，使得程序占用空间小，速度快，易于管理，很适合小资本的运作的购物站，另外网站带有新闻版块，方便做优化，还有会员系统的，网站功能全部开源。网站浏览器兼容性也比较好，网站前台以产品图片为主。网站大致结构：首页，所有产品，推荐产品，热销产品，行业新闻，留言反馈，会员注册，

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Xiaomi MiMo 的主要功能

卓越的数学推理能力：能够解决复杂的数学问题，提供精确的推理路径和答案。
高效的代码生成能力：生成高质量的代码，适用于各种编程任务。
优化的推理性能：通过预训练和后训练的联动提升推理能力，仅用 7B 参数规模便超越了更大规模的模型，展示了高效的推理性能。

Xiaomi MiMo 的技术原理

预训练阶段：重点挖掘富含推理内容的语料，合成约 200B tokens 的推理数据，确保模型接触到更多推理模式。采用三阶段训练方法，逐步提升训练难度，总训练量达到 25T tokens，使模型在不同难度的任务中逐步提升能力。
后训练阶段：
- 强化学习算法：引入 Test Difficulty Driven Reward 算法，缓解困难算法问题中的奖励稀疏问题，提升模型在复杂任务中的表现。
- 数据重采样策略：采用 Easy Data Re-Sampling 策略，稳定强化学习（RL）训练过程。
- 高效训练框架：设计了 Seamless Rollout 系统，加速 RL 训练（2.29 倍）和验证（1.96 倍），提升训练效率。
模型架构优化：针对推理任务优化模型架构，确保在有限参数规模下实现高效的推理能力。