0

0

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

看不見的法師

看不見的法師

发布时间:2025-12-03 10:11:02

|

902人浏览过

|

来源于php中文网

原创

传统强化学习(rl)在具备明确答案的任务中,如数学解题、代码生成等领域已取得显著进展。然而,在需要主观判断与创造性表达的开放任务中,例如创意写作或情感对话,由于缺乏统一的评判标准,传统 rl 方法难以施展拳脚。如何让强化学习突破“可验证奖励”的限制,迈向更复杂的主观世界?蚂蚁技术研究院联合浙江大学推出全新强化学习范式——rubicon,并正式开源其成果 rubicon-preview 模型,为这一难题提供了创新解决方案。

自 OpenAI o1 系列模型引领潮流以来,“基于可验证奖励的强化学习”(RLVR)已成为提升大模型推理能力的核心路径。通过大量客观任务训练,AI 在有标准答案的领域表现卓越。

但这也暴露出当前技术的局限:当面对没有唯一正确答案、依赖人类感知与审美的开放式任务时,AI 显得力不从心。

如何让 AI 写出打动人心的文字,而非千篇一律的“AI 腔”?如何激发它进行真正有想象力的构思,而不是堆砌已有信息?这些正是通向更高阶智能必须跨越的关键门槛。

为此,蚂蚁技术研究院与浙江大学携手发布 Rubicon-preview 模型,提出一种全新的学习框架——“基于评分标尺的强化学习”(Rubric-based Reinforcement Learning),首次系统性地将人类对主观内容的偏好转化为可量化的训练信号,为 AI 注入更具人性化的创造力。

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3论文标题:Reinforcement Learning with Rubric Anchors论文地址:https://www.php.cn/link/68b550d21bf148b92cc007171305afb1https://www.php.cn/link/6fe3ec8f08093fb71744041532af3382

不同于传统强化学习依赖二元化的对错反馈,Rubicon 的核心理念是放弃追求唯一的“正确输出”,转而教会模型理解多层次的“评分准则”(Rubric)。名称“Rubicon”源自 RUBrIC aNchOrs —— 即以评分规则作为锚点,帮助模型在模糊、多变的主观空间中稳定导航。

为了实现这一目标,研究团队构建了目前业内规模最大、覆盖最广的 Rubric 知识库,包含超过 10,000 条精细设计的评分标准,涵盖创意写作、情感表达、叙事结构等多个维度。这些标准将人类评委在文学创作、心理对话等场景中的隐性偏好显性化,首次大规模实现了主观评价的可计算化。

这不仅是一次数据规模的跃升,更是对强化学习奖励机制的根本重构,极大拓展了其适用边界。

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3Rubicon-preview 模型核心优势

1. 小样本大成效:5000 样本即超越超大规模模型

实验证明,仅使用 5000 多个训练样本,团队训练出的 30B 参数模型 Rubicon-preview 在多个开放式人文任务上实现 +5.2% 的绝对性能提升,甚至反超参数高达 671B 的 DeepSeek-V3 模型。

Figstack
Figstack

一个基于 Web 的AI代码伴侣工具,可以帮助跨不同编程语言管理和解释代码。

下载

这一结果凸显了“规模化评分标准”(Scaling Rubrics)的巨大潜力,有望减少 AI 对海量标注数据的依赖,推动高效、低成本的模型进化。

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V32. 打破机械感:实现细腻风格控制,语言更有温度

得益于 Rubric 的精细化引导,模型展现出前所未有的表达灵活性和风格掌控力。

面对情感类问题,传统模型常回应“我没有情绪”这类程式化语句,而 Rubicon-preview 能够生成富有共情力、具故事性的回答,语言更加自然、贴近人类表达习惯。

3. 兼顾理性与感性:破解创意与推理的“此消彼长”

长期以来,增强模型的创意能力往往导致逻辑推理能力下降,形成所谓的“跷跷板效应”。Rubicon 采用多阶段协同训练策略,有效平衡两者需求。

结果显示,在大幅提升主观任务表现的同时,模型在 AIME 等数学推理基准测试中也保持稳定进步,真正实现了感性创造与理性思维的同步成长。

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3结语

蚂蚁技术研究院与浙江大学团队表示,此次开源不仅是发布一个高性能模型,更重要的是向全球社区贡献一套可复用的强化学习新范式及底层基础设施。他们相信,未来的 AI 不仅要聪明,更要懂得人心。一个能理解情感、激发创意的智能时代正在加速到来,期待更多开发者加入这场探索之旅。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

390

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1985

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

82

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

24

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

16

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

56

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 8.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.6万人学习

Rust 教程
Rust 教程

共28课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号