腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题-IT新闻-PHP中文网

腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题

碧海醫心

发布： 2025-09-18 13:51:01

原创

403人浏览过

腾讯混元公布 srpo 技术，解决大模型生图“过油”问题

腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题

腾讯混元团队近日公布了一项重要技术突破 —— SRPO（Semantic Relative Preference Optimization，语义相对偏好优化），该方法为文生图模型提供了一种高效的强化学习优化方案，成功解决了开源模型Flux在生成人像时常见的皮肤“过油”问题，使人像真实感提升达3倍以上。

针对Flux.dev.1模型输出图像中人物肌肤质感过于油腻的现象，SRPO通过在线调整奖励机制、优化生成过程早期轨迹等手段，有效改善了视觉质量。相比传统方法依赖固定奖励模型的方式，SRPO展现出更强的灵活性和适应性。

在文生图领域，传统的在线强化学习方法如ReFL和DRaFT虽具备较高的训练效率，但严重依赖预先训练的奖励模型。这类模型不仅需要大量标注数据进行训练，成本高昂，且泛化能力有限，难以满足复杂多变的高质量后训练需求。

为此，腾讯混元团队联合香港中文大学（深圳）与清华大学共同提出SRPO，引入语义偏好的动态调节机制，实现对奖励模型的实时优化。

具体而言，SRPO通过向奖励模型注入特定控制提示词（例如“真实感”、“自然肤色”等），引导其关注图像生成中的关键质量维度。实验表明，这些语义信号能显著增强模型在真实度方面的判断能力，从而更精准地指导生成过程。

腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题