
Meta的人工智能研究团队联合爱丁堡大学,推出了一项创新技术,能够判断大型语言模型(LLM)在推理过程中是否出错,并在发现问题时主动进行修正。该方法被称为电路基础推理验证(CRV),其核心理念是深入探查LLM内部的“推理电路”,实时监控模型在解决问题时是否存在计算偏差。
研究显示,CRV通过构建并分析模型内部激活状态的计算图,能以很高的准确率识别出推理错误。这一进展使得研究人员可以基于模型深层内部信息,对错误的推理过程实施精准干预。
尽管链式思维推理(CoT)已被广泛用于提升LLM在复杂任务中的表现,但其输出结果仍存在不可靠的风险。当前主流的验证手段主要分为两类:一类是“黑箱”方法,依赖对最终生成token或置信度评分的外部分析;另一类为“灰箱”方法,尝试窥探模型的部分内部状态,但均难以揭示推理失败的根本机制。
CRV则采用了“白箱”验证路径,假设模型在处理任务时会调用特定的神经元子网络。研究人员通过将传统的稠密层替换为经过训练的“转码器”,使目标LLM具备可解释性,从而能够清晰观察其内部运作流程。随后,CRV构建一个“归因图”,用以刻画信息在模型各组件之间的因果传递关系,并从中提取反映图结构特征的“结构指纹”。基于这些指纹,再训练一个“诊断分类器”来判断每一个推理步骤的正确性。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
实验在Llama3.1模型上展开,结果显示CRV在多个数据集和评估指标上均显著优于现有验证方案,展现出卓越的检测能力。研究还发现,不同推理任务中的错误模式具有领域特异性,表明各类推理依赖于各自独特的内部神经回路。
尤为关键的是,CRV不仅停留在相关性层面,而是提供了透明的计算过程视图,使得预测失败能够被追溯到具体的模型组件。这使得研究人员可以通过抑制异常激活特征,在推理过程中实时调整模型的行为路径,实现动态纠错。
以上就是Meta 研究人员揭开大语言模型黑箱,修复 AI 推理缺陷的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号