小米又开源了，一个多模态大模型 + 一个生不逢时的推理大模型-人工智能-PHP中文网

小米又开源了，一个多模态大模型 + 一个生不逢时的推理大模型

爱谁谁

发布： 2025-06-27 12:28:01

原创

242人浏览过

大家好，我是 ai 学习的老章

上月底，小米开源了一个大模型：MiMo-7B，它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略，MiMo-7B 展现出了超越许多更大模型的推理潜力。

昨天，小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型

咱们挨个看一下情况

MiMo-VL-7B 系列

MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入

技术报告：https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

模型文件：https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files

其中

MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。

MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习，无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。

MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B（这个模型我在这篇文章中有介绍1 张 4090，本地部署多模态大模型，部署后我测试了几个图片理解问题，感觉 7B 做到这个程度，无可挑剔）

评估方面，感觉吹牛的可能性比较大

在一般的视觉语言理解中，MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀

在多模态推理中，SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。

MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型，MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。

PS：GUI 就是各种计算机操作的图形界面

MiMo-VL-7B 系列，既没有试用，又没有详细的本地部署文档，这一块，跟阿里差远了。

我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B

魔法映像企业网站管理系统

技术上面应用了三层结构，AJAX框架，URL重写等基础的开发。并用了动软的代码生成器及数据访问类，加进了一些自己用到的小功能，算是整理了一些自己的操作类。系统设计上面说不出用什么模式，大体设计是后台分两级分类，设置好一级之后，再设置二级并选择栏目类型，如内容，列表，上传文件，新窗口等。这样就可以生成无限多个二级分类，也就是网站栏目。对于扩展性来说，如果有新的需求可以直接加一个栏目类型并新加功能操作

查看详情

改天部署试试

MiMo-7B-RL-0530 系列

模型文件：`https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files

技术报告：https://arxiv.org/abs/2505.07608

昨天小米还开源了 MiMo-7B-RL，太生不逢时了，赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528，还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型，我用 2 张英伟达 4090 本地部署了，深得我心

模型细节就不看了，文末我用大模型基于小米这篇论文绘制了 PPT，感兴趣可以细看。

总结就是，在训练数据、预训练和后训练阶段都进行了优化，号称是在数学和代码推理任务上表现出色，达到了与 OpenAI o1-mini 相当的性能。

部署推理支持 SGLang 和 vLLM，前者 SGLang 官方已支持，vLLM 尚未合并分支，用起来稍麻烦

代码语言：basg复制

# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code

登录后复制

这个我就更懒的测试了，铁定不如DeepSeek-R1-0528-Qwen3-8B

小米这篇论文，我转成了 PPT，感兴趣看看

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个?，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）

图解机器学习 - 中文版（72 张 PNG）

ChatGPT、大模型系列研究报告（50 个 PDF）

108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础

116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数

史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

以上就是小米又开源了，一个多模态大模型 + 一个生不逢时的推理大模型的详细内容，更多请关注php中文网其它相关文章！