推动大模型自我进化,北理工推出「流星雨计划」

聖光之護
发布: 2024-12-05 12:45:01
原创
480人浏览过

北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划,旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式:在掌握基本技能后,通过与环境及自身的交互,不断学习和改进。 本文将重点介绍该计划在代码大模型和垂域大模型进化方面的成果。

SRA-MCTS:赋能代码大模型自我进化

图片

为提升代码大模型的性能,研究人员提出了SRA-MCTS方法。该方法的核心在于让模型无需外部监督信号,自主生成推理路径并转化为代码。通过自我迭代,模型能够生成更高质量的推理路径,从而提升处理复杂问题的成功率。 实验结果表明,即使是小规模模型,SRA-MCTS也能显著提升其性能,尤其在处理多样化和复杂问题方面。

SRA-MCTS 的主要贡献:

  • 无监督学习: 无需人工标注数据或额外监督。
  • 持续自我提升: 通过自我训练形成正反馈循环,持续改进性能。
  • 增强复杂问题解决能力: 在不同规模模型上均取得显著性能提升。
  • 小模型自我合成潜力: 小模型(2B, 8B, 14B)自我合成数据训练效果超越大模型数据蒸馏。

SRA-MCTS 的工作机制:

SRA-MCTS 通过结合推理过程和数据生成,引导模型自主生成推理路径。该方法包含四个阶段:选择、扩展、评估与反思、反向传播。 通过反复迭代,模型不断完善其推理能力。

示例:拓扑排序代码生成

(此处保留原文中关于拓扑排序的示例代码和解释)

流星雨计划:垂域大模型的自我进化框架

图片

“流星雨”计划提出一个“弱到强”的进化框架,包含三个阶段:

  1. 导师监督学习: 利用知识蒸馏,但采用“弱到强”的策略,让强模型根据弱模型的指导生成领域数据,从而减少认知偏差。

  2. 自我评估能力习得: 借鉴StaR方法,利用更强的模型(如GPT-4)提供反馈,迭代训练模型,提升其自我纠错能力。

  3. 自我提升训练: 通过对比学习(例如,beam search vs. greedy search),让模型向更高效的推理策略靠拢,实现完全的自我进化。

性能分析及未来展望:

实验结果表明,应用Meteor进化方法后,LLaMA3-8B-Instruct和Qwen2-7B-Instruct在准确性、完整性等方面均有提升。 未来,研究团队将继续改进各个阶段的进化方法,并拓展Meteor的应用场景。 DIRECT LAB 欢迎更多研究者参与合作,共同推动大模型自我进化领域的发展。(代码和数据已公开:https://www.php.cn/link/201ecef3255bae210a1b2c0ae4a21c7a

以上就是推动大模型自我进化,北理工推出「流星雨计划」的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号