OpenAI的强化微调：RL+Science 创造新神还是灭霸？-人工智能-PHP中文网

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

碧海醫心

发布： 2024-12-08 15:27:23

原创

1080人浏览过

openai发布强化微调新方法，或将革新专家模型构建！这项名为“强化微调”（reinforcement finetuning，rft）的技术，仅需少量数据（几十到几千条案例）即可训练出在特定领域（如医疗诊断、罕见病诊断）做出最优决策的模型。这引发了人们对于ai在科学领域的巨大潜力和潜在风险的双重思考。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

RFT的核心技术源于强化学习从人类反馈中学习（RLHF），通过训练奖励模型，并利用强化学习算法（如PPO、DPO）微调模型参数，使其更符合人类偏好。在数学和编码领域，RFT可利用蒙特卡洛树搜索（MCTS）等方法生成多种解法，再通过强化学习迭代优化，提高准确率。

OpenAI的RFT方法在一些专家场景中表现出色，其本质是结合了思维链（CoT）和强化学习。CoT帮助模型生成多样化的推理路径，再根据结果进行打分和强化学习微调。然而，RFT也面临挑战，例如如何定义强化学习中的状态转移，以及如何在token级别和完整响应级别之间找到平衡点。一个根本性的问题是：有效的思维状态表示是否已在预训练中涌现？

目前RFT技术仍存在局限性。其在罕见病诊断中的成功，部分原因在于罕见病诊断通常有清晰的基因指标和流程化的判别路径，属于相对简单的多项选择题。 RFT在demo中规避了复杂的奖励建模步骤，采用简单的打分函数。然而，真正的科学问题通常没有标准答案，数据也往往嘈杂，这给RFT的应用带来了巨大挑战。

OpenAI同步推出了一个强化微调研究项目，邀请全球科研人员提供数据进行测试，这引发了安全担忧。将科学研究数据集中在少数公司手中，是否会造成不可控的风险？这需要全社会共同关注和谨慎应对。