
Meta 公司联合芝加哥大学与加州大学伯克利分校的研究团队推出了一种全新的训练框架——DreamGym,专注于应对在利用强化学习(RL)训练大型语言模型(LLM)代理过程中遇到的高开销、基础设施复杂以及反馈不稳定等难题。该框架通过构建虚拟化的 RL 环境,使代理能够在模拟中高效掌握复杂应用任务的执行能力。
DreamGym 的一大优势在于其能够根据代理的学习进展动态调节任务难度,推动其循序渐进地攻克日益复杂的挑战。实验证明,无论是在全仿真环境,还是需要将所学策略迁移到真实场景的应用中,DreamGym 均显著提升了强化学习的训练效率。尤其在那些传统 RL 方法虽适用但成本过高的场景下,DreamGym 仅依赖合成生成的交互数据,就能实现与主流算法相当的性能表现,大幅削减了对真实环境交互和人工标注数据的依赖。
在实际应用中,使用 RL 训练 LLM 代理常面临操作链条长、反馈稀疏等问题——代理往往需完成一连串正确动作后才能获得有效奖励信号。同时,获取高质量、多样化且经过专家验证的数据集成本高昂。DreamGym 正是为克服这些障碍而设计,提供了一条更安全、经济且高效的训练路径。
该框架由三大核心组件构成:首先是“基于推理的经验模型”,它将目标环境的动力学机制映射到文本空间,从而实现对真实环境的语义级模拟;其次是“经验重放缓冲区”,作为持续更新的记忆模块,用于存储历史轨迹并提升生成经验的多样性;最后是“课程任务生成器”,可根据代理当前能力自动设计更具挑战性的新任务。这三个模块相互协作,形成一个闭环训练系统,极大增强了代理的学习效率和泛化能力。
研究团队在多个领域对 DreamGym 进行了基准测试,涵盖电子商务流程、体感控制以及真实网页操作等复杂任务。实验结果显示,DreamGym 在各项任务中均优于现有方法。特别是在 WebArena 测试环境中,其所训练出的代理任务成功率比基线模型高出30%以上。这一成果表明,DreamGym 为以往因成本或技术限制难以开展 RL 训练的应用场景开辟了新的可能性。
源码地址:点击下载
以上就是Meta 推出 DreamGym 框架,低成本高效训练 AI 代理的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号