快手 kwaipilot 团队近日发布了 seamlessflow 技术报告,seamlessflow 是该团队所使用的工业级规模强化学习(rl)训练框架。

据介绍,该框架通过创新的数据平面架构,对RL的训练逻辑和Agent做了彻底解耦,用以支持多智能体、在线强化学习训练等复杂场景。

更进一步,针对RL计算资源分配问题,团队提出了“标签分配机制”,统一了该领域最广泛的两种设计模式(训推共卡、训推分离)。以标签分配的思路为出发点,在业界首个提出“时空复用pipeline”,实现了在训推分离的异构集群上彻底消除Pipeline Bubble的效果。
在实际测试中,SeamlessFlow的端到端token吞吐量相比基线提升100%,整体训练时间减少62%。


详细内容查看技术报告:https://arxiv.org/abs/2508.11553
以上就是快手发布工业级规模强化学习(RL)训练框架 SeamlessFlow的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号