上海交通大学与阿里巴巴通义实验室合作,在neurips 2024上发表了一篇关于数学推理场景下分布外检测的论文,提出了名为“tv score”的全新算法。该算法利用动态嵌入轨迹,有效解决了传统静态嵌入方法在数学推理场景中失效的问题。
传统的分布外(OOD)检测方法主要针对翻译、摘要等任务,通过计算样本嵌入与训练数据分布的马氏距离来识别异常。然而,数学推理的输出空间存在“模式坍缩”现象:不同输入可能产生相同结果,且分词化表示导致不同表达式共享大量token。这使得静态嵌入难以捕捉数学问题的复杂性。
为了克服这一挑战,TV Score 算法引入了动态嵌入轨迹的概念。它追踪语言模型各层对输入的嵌入变化,并将这些变化序列作为检测依据。研究发现,正确推理的样本(ID)嵌入轨迹变化平滑且“过早稳定”,而错误推理的样本(OOD)轨迹变化剧烈。
TV Score 算法具体步骤如下:首先,对每一层ID样本的嵌入进行高斯分布拟合;然后,计算新样本每一层嵌入与对应高斯分布的马氏距离;最后,将所有层马氏距离的平均值作为TV Score得分。为了提高鲁棒性,算法还加入了差分平滑技术,进一步抑制异常值的影响。
实验结果表明,TV Score 在多个数据集和不同规模的语言模型上均取得了显著优于基线方法的性能,尤其是在难以区分的Near-shift OOD场景中。此外,TV Score 在生成质量估计和不同任务场景下也展现了良好的泛化能力。
这项研究为数学推理场景下的OOD检测提供了新的思路和方法,也为其他具有“模式坍缩”特征的任务提供了借鉴。 它突显了在复杂应用场景下,开发更精细的安全性算法的重要性,以保障大模型的可靠性和安全性。










