微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

碧海醫心

发布： 2025-02-25 15:34:01

原创

834人浏览过

仅靠逻辑益智题，竟能让AI数学竞赛水平大幅提升？DeepSeek R1的秘密武器

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

继中国大模型在技术领域取得突破后，国内团队再次带来惊喜！这项研究揭秘了DeepSeek R1模型背后的秘密：通过少量合成数据和强化学习，一个7B参数的小模型在逻辑推理测试中超越了OpenAI的o1模型，甚至逼近o3-mini-high的水平。更令人瞩目的是，在从未见过的美国数学奥林匹克（AIME）测试中，其推理能力提升了惊人的125%！

研究成果：

论文标题: Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
论文链接: https://www.php.cn/link/971c6340495b40cce8b7ef650650a599
Github链接: https://www.php.cn/link/fb1f13df81c7bee04d8a083204858880

该研究由微软亚洲研究院和九坤投资等机构的研究人员共同完成，是首个对类似R1强化学习模型训练过程进行全面深入分析的研究。值得强调的是，该团队不仅完整开源了全部代码，还公开了详细的参数设置、训练数据和经验总结。

研究目标:

研究团队试图解答以下关键问题：

GRPO是否是强化学习的最佳算法？如何进行参数调整以实现稳定训练？循序渐进的课程学习是否仍然有效？
基于基础模型进行强化学习与完全冷启动训练有何区别？哪种方式更优？
模型输出长度的线性增长规律是否与推理能力的提升直接相关？
模型频繁使用“verify”、“check”等反思性词汇是否意味着推理能力增强？哪些词语能够可靠地反映推理能力的提升？
强化学习是否真正掌握了抽象推理能力，还是仅仅依赖于模式记忆？与传统的监督微调相比，强化学习的优势在哪里？
模型在推理过程中混用中英文是否对性能提升有帮助，甚至可能是有害的？

研究方法：

数据选择: 为了更好地分析推理模型机制，研究人员选择使用程序生成的逻辑谜题作为训练数据，例如经典的“骑士与骗子”问题。这种方法的优势在于：

数据是全新的，可以有效测试模型的泛化能力。
通过调整参数，可以控制谜题的难度。
每个谜题都有明确的答案，减少了奖励作弊的风险。
消除了自然语言任务中的模糊性，方便区分真正的推理能力和简单的模式记忆。

易笔AI论文

易笔AI论文

专业AI论文生成，免费生成论文大纲，在线生成选题/综述/开题报告等论文模板

易笔AI论文

103

易笔AI论文

奖励机制: 研究人员设计了一个基于规则的奖励系统，几乎杜绝了作弊行为，主要包括格式奖励和答案奖励两种。

实验结果:

经过大量的对比实验，研究团队最终选择REINFORCE++算法，并对其进行了改进。在经过约3600步训练后，7B参数的模型在逻辑推理测试中超越了OpenAI o1模型两倍，性能逼近o3-mini-high。

有趣的发现:

“思考”词语与推理能力: 研究发现，“verify”、“check”等词语的出现与推理性能提升相关，但并非所有与思考相关的词语都能带来性能提升。“recheck”的出现反而会降低性能。
语言混用: 中英文混用会降低模型性能。
“顿悟时刻”的缺失: 模型性能的提升是逐步进行的，并非突然出现“顿悟时刻”。
强化学习与监督微调的对比: 强化学习的泛化能力更强，对数据的依赖性更低。
输出长度与性能: 输出长度的增长并不一定代表推理能力的提升。

更多细节，请参考论文原文。这项研究为大模型的推理能力提升提供了新的思路，也为未来AI发展提供了宝贵的经验。

以上就是仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai 区别 deepseek github 算法 https

大家都在看：

Claude升级挑战生命科学科研难题，AI十年能完成百年进展？谷歌放大招：乱画两笔就能出 4K 海报？PS 这次真的危险了豆包网页版AI对话平台_豆包网页版智能助手体验 AI志愿助手怎么查看月度服务总结_AI志愿助手月度报告生成与查看指南 AI志愿助手怎么上传志愿服务照片_AI志愿助手服务照片上传完整教程

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：早报：曝特斯拉FSD又要来了苹果撤回部分机型iOS更新下一篇：宁德时代与大众汽车将在中国合作开发锂电池

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Flutter应用中通过PHP API安全获取MySQL插入ID的实现指南

2025-11-19 12:49:02
如何实现容器内容滚动：解决固定布局中的内容溢出问题

2025-11-19 12:52:16
两年前的《博德之门3》再获TGA提名！官方：什么鬼

2025-11-19 12:54:16
PHP 通过 FTP 下载文件教程

2025-11-19 12:56:49
在Angular中正确显示API返回的HTML文本中的Unicode字符

2025-11-19 12:58:01
优化Laravel用户角色查询：消除重复数据库请求的策略

2025-11-19 12:59:00
解决Pandas DataFrame行求和为0的常见问题：混合数据类型处理指南

2025-11-19 12:59:55
解决cuDF与Numba集成中的NVVM缺失问题：CUDA开发环境配置指南

2025-11-19 13:01:02
解决JavaScript动态创建Canvas中drawImage不显示图片的问题

2025-11-19 13:02:25
JavaScript实现Indeed API分页数据高效获取教程

2025-11-19 13:04:02

最新问题

Notion怎么设置封面_Notion页面封面图片设置与美化技巧设置Notion页面封面可提升美观度与识别效率。首先使用内置封面库选择颜色或图片；其次支持上传本地图片或通过URL插入网络图片，建议16:9高清图；再结合emoji或图标统一视觉风格；最后利用透明背景优化文字可读性，避免色彩冲突，增强整体排版专业感。

2025-11-22 10:59:02

285

grokai如何输入提示_grokai提示输入优化策略与示例应用优化GrokAI输出需从角色设定、结构化提示、示例引导和迭代调整入手：首先明确任务目标与角色，如“你是一位资深数据分析师，请分析用户行为数据并总结趋势，用通俗语言解释”；其次采用结构化格式，将提示分为背景、任务、输出要求三部分，使用分隔符增强可读性，并指定输出形式如列表；再通过输入-输出样例示范理想回答模式，确保示例相关且覆盖关键情况；最后通过测试记录输出差异，逐项调整关键词或限制条件，每次仅修改一个变量以评估效果，持续精简至最优提示。

2025-11-22 09:23:03

944

豆包网页版生成视频_豆包网页版AI视频制作功能若豆包网页版AI视频生成功能异常，首先检查提示词是否具体、避免抽象词汇，并确保使用Chrome或Edge浏览器且网络稳定；其次清除缓存并重新登录账号；接着在高级设置中调整视频时长、风格及清晰度选项；最后可尝试选用模板库中的预设模板替换内容后生成，以提升成功率。

2025-11-22 09:05:02

283

夸克AI搜索怎么写作文_夸克AI搜索辅助写作功能使用教程答案：使用夸克AI写作功能可快速生成作文。通过夸克学习入口、夸克文档或搜索框三种方式进入AI写作文，设置题目、体裁、字数等要求后即可生成文章。

2025-11-22 08:27:08

712

文心一言官方首页入口文心一言AI创作平台登录方式文心一言官方首页入口是https://yiyan.baidu.com，用户可在此登录使用其AI创作平台，该平台具备智能文本生成、多轮对话理解、代码辅助编写和图像视觉理解等功能，支持个性化设置与历史记录管理，依托大规模语言模型和分布式计算技术，保障高效稳定的安全服务体验。

2025-11-21 23:18:06

395

抖音AI官方网站链接入口_抖音AI在线使用官网直达地址抖音AI在线使用官网直达地址是https://www.douyin.com，该平台提供智能创作工具、跨设备同步、丰富模板库及AI技术支持，用户可通过网页或APP体验AI生成内容、智能分身等功能。

2025-11-21 23:17:02

561

哩布哩布AI脸部修复怎么开_哩布哩布AI人脸细节增强设置教程开启脸部修复可改善人脸模糊问题。首先上传图片并进入AI增强设置，开启“脸部修复”功能以自动修复面部瑕疵；随后启用人脸细节增强模式，选择中等级别并限定作用区域；接着通过高级设置调节修复强度，最后点击应用预览并导出图像，确保保留处理效果。

2025-11-21 23:15:05

133

百度ai官方网址主页链接_百度ai平台入口地址在线使用百度AI官方网址主页链接是https://ai.baidu.com/，该平台集成语音识别、图像处理、自然语言理解等功能，支持人脸识别、文字识别接入，提供智能对话系统工具与文心系列大模型，涵盖金融、交通、城市治理等多领域解决方案。

2025-11-21 23:15:05

249

百度AI文心一言怎么改简历_百度AI文心一言智能优化简历全过程使用百度AI文心一言优化简历需先登录平台并启动简历优化功能，1、访问官网或小程序，输入“帮我优化简历”进入智能求职助手；2、上传Word/PDF简历文件或手动填写个人信息、项目经历等内容，系统自动解析提取关键信息；3、设定具体目标职位如“产品经理”，以便AI根据岗位需求提供定制化建议；4、查看AI生成的修改方案，重点关注动词强化、成果量化及技能结构优化，并结合实际选择采纳；5、导出为PDF或Word格式，检查排版一致性，确保简历在各类系统中显示正常，提升ATS通过率。

2025-11-21 23:14:02

535

DEEPSEEK网页版怎么使用_DEEPSEEK网页版功能详解首先确认已正确访问并登录DEEPSEEK官网，依次选择文本生成、代码助手或文档问答功能，按指引输入内容并生成结果，确保在会话限制内操作以保持上下文连贯。

2025-11-21 23:13:02

321

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Node.js 教程

49829次学习
收藏
CSS3 教程

30313次学习
收藏
Rust 教程

28261次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部