roll是阿里巴巴未来生活实验与智能引擎团队开源的面向大模型的强化学习(rl)框架,该框架提供了完整的rl训练链路,支持模型通过与环境交互来学习任务解决策略。然而,roll当前缺失在环境服务层的标准化支持,虽然其提供了训练算法和模型接口,用户仍需自行构建和维护任务执行环境,无疑增加了使用门槛并限制了训练规模。
为解决这一难题,团队近期正式开源了ROCK——一个强大的Env沙箱,正式填补了ROLL生态中环境服务层的空白。它将提供:
通过ROCK与ROLL的协同,用户可以获得从训练框架到环境服务的完整解决方案,显著降低Agentic模型开发的复杂度,推动这一技术的规模化应用。
ROCK项目地址:github.com/alibaba/ROCK
ROLL项目地址:github.com/alibaba/Roll

大语言模型正在经历一场深刻的范式转变。早期的语言模型主要专注于文本生成和对话,而如今最前沿的模型已经进化为能够与外部环境深度交互的 Agentic 模型。这种演化不仅仅是技术上的进步,更代表了 AI 应用场景的根本性扩展。
当前几乎所有的 SOTA 模型——如 GPT-5、Claude 4.x、Gemini-2.5 等——都具备了多轮交互能力,能够通过工具调用(Function Calling)、代码执行、外部 API 调用等方式与环境进行交互。这种能力使得模型从"回答问题"转变为"解决问题"。
从业务价值角度来看,这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告,而是能够直接执行的 动作(Action)。例如:在 DevOps 场景中,我们需要模型能够直接执行命令、修复故障;在数据分析场景中,需要模型能够编写并运行代码、生成可视化报告;在客户服务场景中,需要模型能够查询数据库、更新订单状态。这些都要求模型具备真正的执行能力,而非仅仅输出文本建议。
基础要素构成
训练一个高质量的 Agentic 模型需要四个核心要素的协同配合:
RL框架是引擎,环境是燃料
在四大核心要素中,强化学习训练框架是 Agentic 模型的技术骨架,它定义了模型如何通过与环境交互来学习决策能力。然而,再优秀的框架也需要"巧妇"配以"良米"——数据质量和环境服务正是决定 Agentic 模型能力上限的两大关键支柱。
数据维度是模型能力的根基。预训练和监督微调阶段的数据质量与多样性,从根本上界定了基础 LLM 的能力边界,赋予模型泛化能力、推理能力和世界知识。但对于 Agentic 模型而言,仅有扎实的基础能力还远远不够——模型必须学会在特定任务环境中规划并执行正确的决策序列。
环境服务维度则是 Agentic LLM 训练中最容易被低估却又至关重要的一环。强化学习算法对环境交互存在海量需求,环境服务的稳定性和效率直接决定了模型的 Scaling 潜力——即能否通过大规模交互数据持续突破性能瓶颈。一个高效稳定的环境服务需要满足:
环境服务的性能瓶颈往往直接成为整个训练流程的"卡脖子"问题。为突破这一制约,我们需要双轮驱动:既要构建高度可定制化与高性能的强化学习训练框架(ROLL),也要建立高效稳定、弹性伸缩的环境管理运行体系(ROCK),两者协同才能释放 Agentic 模型的真正潜力。
ROLL 是基于Ray构建的大规模LLM强化学习的高性能基础设施,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。ROLL提供了丰富的功能特性,涵盖了强化学习训练的各个方面:支持数学、代码、推理等多领域任务联合训练;原生支持Agentic RL,灵活适配游戏、多轮对话、工具调用、CodeAgent等多步决策场景;深度集成Megatron-Core、Deepspeed等主流框架,支持先进的5D并行策略;具备样本级生成管理、异步推理、异步训练加速等核心机制。
针对Agentic强化学习,ROLL提供了专门优化的优化:环境异步交互、冗余环境采样支持、Agentic异步训练进行训练加速。并且,ROLL采用GEM标准环境接口,通过极简的env.reset和env.step两个核心方法,大幅简化了Agentic RL的交互过程:
# 初始化环境
observation, info = env.reset()
# 智能体-环境交互循环
while True:
action = llm.generate(observation) # 智能体决策
next_observation, reward, terminated, truncated, info = env.step(action)
if terminated or truncated:
break这种简洁的设计使得任何新的业务应用都能快速适配,无需复杂的接口转换。环境开发者只需实现标准的reset/step方法,即可无缝接入ROLL的训练体系,实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。
RL框架是驱动引擎,环境是能量源泉,共同构筑了Agentic模型能力突破的核心基石。ROLL在AgenticRL训练过程中的Scaling能力对环境服务提出了具体要求,以充分释放其分布式训练和异步优化的潜力。
1. 高并发处理能力:ROLL的分布式架构能够同时处理数千乃至数万训练实例,这要求环境服务具备相应的并发处理能力,以匹配ROLL的训练吞吐量。ROLL的异步设计进一步放大了对环境并发能力的需求。
2. 冗余容错支持:ROLL通过冗余环境部署技术应对环境故障,确保训练过程的稳定性,这更增大了环境实例数量的需求。
3. 快速状态管理:ROLL支持环境粒度的异步并行Rollout,这需要环境服务能够快速地拉起环境实例,可靠地重置和维护环境状态。ROLL的队列调度机制要求环境服务能够支持细粒度的任务生命周期管理。
4. 多样化任务适配:ROLL作为训练框架,支持多样化的Agentic任务场景(游戏、多轮对话、工具调用、CodeAgent等),环境服务需要适配不同任务类型与复杂度的需求,支持灵活的任务扩展。
ROLL框架在Agentic训练过程中对环境服务层面的强烈需求——这正是ROCK项目需要解决的核心问题。
一个聪明的 Agent,其智能的广度与深度,取决于它所能探索的世界的规模与多样性。然而,在传统的 Agent 训练范式中,复杂的任务环境常常耗尽单机资源,这成为了限制 Agent 训练规模的硬性天花板。
ROCK 的诞生,正是为了击碎这块天花板。
它基于业界领先的分布式框架 Ray 构建,将一个庞大的计算集群抽象成统一、弹性的“环境资源池”。过去需要数天甚至数周进行手动配置的集群环境,现在通过 ROCK,您可以像在本地启动一个程序一样简单。
ROCK 的规模化能力,不仅是对 ROLL 生态的补充,更是对 Agentic AI 训练范式的一次解放。它将“大规模”从一个遥不可及的概念,变成了您触手可及的工具。
在 Agent 训练中,最常见的困境莫过于环境的“黑盒”特性。当 Agent 的行为偏离预期时,我们迫切地想知道:“案发现场”究竟发生了什么?Agent 执行的命令到底产生了什么效果?
ROCK 彻底打破了这层隔阂,提供了前所未有的程序化 Bash 交互能力。
它的设计理念非常纯粹:将 Linux Shell 的强大与灵活性,通过现代化的 SDK 与 HTTP API 提供给开发者。 这意味着,您可以像操作本地终端一样,与成百上千个远程 Sandbox 进行深度交互。
您只需通过 SDK 调用一个简单的函数,ROCK 就会在背后将其转换为标准的 HTTP 请求,在指定的 Sandbox 内部安全地执行 Bash 命令,并将完整的输出(stdout/stderr)返回给您。
这使得您可以在训练的任意时刻:
ROCK 的交互能力,让您在享受大规模分布式训练便利性的同时,依然保留了如同在本地单机开发时那般强大而直观的调试能力。
开发环境与生产环境的割裂,是工程效率的一大杀手。ROCK 致力于打通开发与生产的“最后一公里”,提供“一次编写,随处运行”的体验。
本地独立运行
在开发初期,您可以完全独立于任何训练框架,在本地一键启动 ROCK 服务。这为您提供了一个纯净的“环境实验室”,专门用于:
这为您的 Agent 即将生活的“世界”提供了一个快速、隔离的单元测试环境。
本地集成调试
当您的环境准备就绪后,可以通过 ROLL 框架一键拉起一个或多个 ROCK Sandbox,进行完整的端到端链路调试。
云端规模化部署
当模型准备好进行大规模训练时,本地调试使用的同一套配置可平滑迁移至云端。
对于动辄运行数小时甚至数天的 Agent 训练任务而言,环境的稳定性至关重要。任何一次意外崩溃,都可能导致宝贵的计算资源和时间的浪费。ROLL 框架的分布式架构,特别是其异步设计和冗余容错机制,对环境服务的稳定性和可靠性提出了极高的要求。
ROCK 将稳定性刻入了基因,旨在成为 ROLL 最可靠的基石。 它的设计标准直接对齐阿里巴巴内部的核心基础设施,为您的训练任务提供企业级保障:
在 Agentic AI 的开发与训练中,开发者长期面临一个棘手的矛盾:Agent 自身通常包含一套复杂的内部逻辑(如多轮对话历史管理、动态 Prompt 拼接),而训练框架(如 ROLL)为了进行有效训练,又必须能精确介入其“思考过程”。
在过去,这常常导致一种“重复建设、维护灾难”的困境:训练框架(ROLL)被迫在自己的代码中完整地重新实现一遍 Agent 的业务逻辑。这不仅是巨大的开发负担,更意味着一旦 Agent 自身的逻辑更新,双方代码就必须手动同步,极易出错且难以维护。
ROCK 引入了革命性的 ModelService 组件,正是为了从根本上斩断这种耦合,解决这一核心痛点。
ModelService 本质上是一个部署在 ROCK 内部的智能模型代理。它通过“提问-拦截-回答”三步,让 Agent 和 ROLL 各司其职,完美协同:
这为 Agent 训练带来了颠覆性的改变:
ROLL与ROCK的结合,标志着阿里在Agentic AI训练领域的完整布局:ROLL提供强大的训练引擎,ROCK则注入源源不断的环境燃料。这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。
通过ROCK,我们打破了环境服务层的瓶颈,实现了:
✅ 从1到10K的弹性扩展:分钟级拉起海量训练环境
✅ 开发到生产的无缝衔接:本地调试的代码直接部署云端
✅ 企业级的稳定性保障:故障隔离、快速恢复、性能可预期
✅ 革命性的交互范式:ModelService解耦Agent逻辑与训练框架
ROCK与ROLL的协同,让Agentic模型训练不再是少数团队的专属能力,而是每个开发者都能轻松上手的标准化流程。无论您是:
ROCK都将成为您最可靠的基础设施伙伴。目前项目已正式开源,并将持续更新,诚邀大家一起构建下一代智能体,让AI真正"动"起来!我们期待社区的每一份贡献——无论是代码、文档还是创意,都将推动Agentic AI生态向前迈进。
The future of Agentic AI is collaborative. Join us now! Let's ROCK and ROLL!
GitHub:
github.com/alibaba/ROCK
github.com/alibaba/ROLL
快速开始文档:
5分钟完成首个Agent训练alibaba.github.io/ROCK/zh-Hans/docs/rockroll/
社区交流: 扫描二维码加入我们的社群,与社区开发者共同成长
https://qr61.cn/o7AEAs/qJYEwH0 (二维码自动识别)
源码地址:点击下载
以上就是ROCK&ROLL:阿里双框架协同推动 Agentic RL 规模化应用的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号