Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷-IT新闻-PHP中文网

Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷

DDD

发布： 2025-10-31 16:49:12

原创

802人浏览过

meta 研究人员揭开大语言模型黑箱，修复 ai 推理缺陷

Meta的人工智能研究团队联合爱丁堡大学，推出了一项创新技术，能够判断大型语言模型（LLM）在推理过程中是否出错，并在发现问题时主动进行修正。该方法被称为电路基础推理验证（CRV），其核心理念是深入探查LLM内部的“推理电路”，实时监控模型在解决问题时是否存在计算偏差。

研究显示，CRV通过构建并分析模型内部激活状态的计算图，能以很高的准确率识别出推理错误。这一进展使得研究人员可以基于模型深层内部信息，对错误的推理过程实施精准干预。

尽管链式思维推理（CoT）已被广泛用于提升LLM在复杂任务中的表现，但其输出结果仍存在不可靠的风险。当前主流的验证手段主要分为两类：一类是“黑箱”方法，依赖对最终生成token或置信度评分的外部分析；另一类为“灰箱”方法，尝试窥探模型的部分内部状态，但均难以揭示推理失败的根本机制。

CRV则采用了“白箱”验证路径，假设模型在处理任务时会调用特定的神经元子网络。研究人员通过将传统的稠密层替换为经过训练的“转码器”，使目标LLM具备可解释性，从而能够清晰观察其内部运作流程。随后，CRV构建一个“归因图”，用以刻画信息在模型各组件之间的因果传递关系，并从中提取反映图结构特征的“结构指纹”。基于这些指纹，再训练一个“诊断分类器”来判断每一个推理步骤的正确性。