大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段,开发者借助大规模文本数据集对模型进行训练,使其学会预测句子中的下一个词;“后训练”阶段,则致力于让模型更好地理解和执行人类指令,此阶段似乎是强化学习的一种特殊形式。
用于大语言模型(LLMs)微调的强化学习(RL)算法正不断演进。起初,OpenAI开创了基于人类反馈的强化学习(RLHF)技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分,选出最优答案作为训练参考。不过,这一过程耗时、昂贵且依赖人力,通常需要一支专业的数据标注团队。
DeepSeek用RL技术自动化了这一环节,算法让模型在探索中通过获得“奖励信号”自主学习正确行为,降低了成本,提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化(Proximal Policy Optimization, PPO),而DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO)算法,这也是DeepSeek - R1中的核心技术。GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制,对于给定输入提示,系统生成G个不同响应构成群组,奖励模型对群组内所有响应评分,再计算群组内分数的均值和标准差,为每个响应计算相对优势值。优于群组平均水平的响应获正向优势,反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度,让大规模模型训练更高效可行。
Qwen3首次亮相时,其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型,还有众多细分版本,且仍在不断迭代更新,如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色,超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。
最近,Qwen团队发布论文,揭示了Qwen3模型成功的核心技术细节——组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。有分析指出,使用GRPO训练大语言模型存在严重稳定性问题,会导致模型崩溃。GRPO将重要性采样权重应用于每个token,而非整个生成序列。
在强化学习中,重要性采样用于校正行为策略与目标策略的差异,当两者不一致时,为已有数据样本赋予权重,使样本更能代表目标策略,提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重,在训练目标中应用此类权重时,因每个token比值独立计算,会导致高方差累积,破坏梯度稳定性,引发模型崩溃。同时,这种做法会将高方差噪声引入训练梯度,在长序列上累积,存在“裁剪机制”时,不稳定性问题会加剧。在专家混合模型(Mixture - of - Experts, MoE)中,GRPO的问题更严重,因为token级别的路由变化会加剧不稳定性,基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中,新提出的GSPO算法均比GRPO有更高的训练效率。
在CodeForces任务中,GRPO最终得分收敛于2000分以下,而GSPO随训练计算量增加持续提升成绩,展现出更强的“可扩展性”。那么,GSPO是如何解决这些问题的呢?GSPO将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题,提升了训练稳定性。
指数中的因子用于“长度归一化”,若不进行长度归一化,几个token的似然变化就可能导致序列级重要性比值剧烈波动,不同长度生成响应在目标函数中需不同裁剪范围,会增加训练不稳定性。针对专家混合模型(MoE)的专项实验凸显了GSPO的优势。由于MoE模型具有稀疏激活特性,使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时,每次强化学习梯度更新后,相同rollout样本新策略激活的专家约有10%与旧策略不同,这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛,消除了不必要的训练复杂性,保留了MoE架构的全部潜力。
总结来看,GSPO有诸多优势。
它将重要性采样从token级别提升到序列级别,并进行序列长度归一化处理;降低了方差,消除了对“路由技巧”等辅助策略的依赖。业界普遍认为,在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实,GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。
以上就是DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号