首页 > 新闻 > IT新闻 > 正文

复旦大学与美团联合发布 R-HORIZON,长链推理评测框架

花韻仙語
发布: 2025-10-29 13:46:35
原创
273人浏览过

复旦大学携手美团longcat共同发布了 r-horizon——首个专注于系统性评估与提升大型推理模型(lrms)长链推理能力的评测框架与训练方法。

复旦大学与美团联合发布 R-HORIZON,长链推理评测框架

R-HORIZON 创新性地提出了“问题组合”(Query Composition)策略,通过在不同问题之间建立逻辑依赖关系,将原本独立的任务转化为复杂的多阶段推理流程。

以数学推理任务为例,该方法包含以下三个关键步骤:

  1. 信息提取:从原始问题中抽取关键数值、变量等核心要素
  2. 依赖构建:将前一个问题的解答结果作为后续问题的前提条件进行嵌入
  3. 链式求解:模型必须按顺序完成所有子任务,才能最终得出正确答案

核心优势:

  • 灵活扩展:支持任意长度的推理链条(如 n=2, 4, 8...),便于测试模型极限
  • 精准控制:可调节问题间的依赖强度,实现细粒度实验设计
  • 高效低成本:基于现有公开数据集自动生成复杂推理样本,无需人工标注

基于这一机制,研究团队构建了 R-HORIZON Benchmark,用于全面评估 LRMs 在多步推理场景下的表现,并同步生成大规模长链推理训练数据。结合强化学习(RLVR)技术,显著提升了模型的深层推理能力。

AGI-Eval评测社区
AGI-Eval评测社区

AI大模型评测社区

AGI-Eval评测社区63
查看详情 AGI-Eval评测社区

复旦大学与美团联合发布 R-HORIZON,长链推理评测框架

R-HORIZON 方法流程示意图——从单一问题到多层依赖推理链的构建过程及应用方向

R-HORIZON 代表了大型推理模型研究范式的重大演进——不再局限于“能解决哪些问题”,而是深入探索“推理链条能延伸多远”。

主要技术贡献:

  • 发布首个面向长链推理的综合性评测基准,揭示 LRMs 的三大关键瓶颈
  • 提出可扩展的训练框架,提供低资源、高效益的能力增强路径
  • 进行深入的机制分析,为下一代推理模型的设计提供理论支持与实践指导
论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth? 论文链接: https://www.php.cn/link/5a7a6185f07dab689218c182fcf3b4ae 项目主页: https://www.php.cn/link/b62b2fca53f1466b2d09f6f05325e357 开源代码: https://www.php.cn/link/b9b1446d5dac7a83f7478d31f514dcf1 数据集地址:https://www.php.cn/link/f54fd264edeb6c5043be90f1570d4ea3

以上就是复旦大学与美团联合发布 R-HORIZON,长链推理评测框架的详细内容,更多请关注php中文网其它相关文章!

相关标签:
美团
美团

美团app是一款吃喝玩乐一应俱全的生活服务类软件,汇集团购、美食、酒店、外卖、电影、美发、美甲、KTV等服务于一体,为用户提供非常便利且全面的服务,有需要的小伙伴快来保存下载体验吧!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号