如何分析GPT4作为裁判自动化评测其他大模型的效果

WBOY

发布时间：2024-05-10 13:04:35

791人浏览过

来源于51CTO.COM

转载

在当前大模型领域，最为普遍或者最为认可的评估方式就是使用参数更大或者使用GPT模型作为评估基准，用于评估其他的大模型，以满足自动化评测的目标。

使用GPT4等模型进行打分可能存在各种问题，例如，使用GPT对两个候选结果进行打分时，如果出现交换问题序列就可能产生相互冲突的结果。因此，即使GPT模型评测时可能会偏向于某个特定位置的回答，但这个结果并不代表最终的答案。

在文章《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》提出了3种LLM-as-a-judge的实现方式，它们可以独立或组合实施：

1）成对比较（pairwise comparison）

为了更准确地评估LLM的性能，我们可以尝试利用不同的prompt来针对问题和提供的不同答案，以确定哪个答案更适合或者更符合一个普遍的观点。

这种方案实际上就是内容理解的一种综合应用，也是当前内容生成的主要研究方向之一。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

2）单一答案的评分（single answer grading）

在于：让LLM评委直接给一个答案打分单一答案。这种方案实际上在评测集的使用中非常适用，比如评估测试集的毒性，或者生成内容与问题的相关性等等。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

3）参考资料指导下的评分（Reference-guided grading）

参考资料指导下的评分的思想是，在某些情况下，提供一个可参考解决方案，这个方案的提供对于评价体系可能是有益的，主要是给出一个评分的样例。

实际上，在吴恩达老师的prompt指导中也提到了类似的能力，也就是通过示例提升LLM的生成效果。

美图AI开放平台

美图推出的AI人脸图像处理平台

下载

prompt书写最重要的原则就是详细明确，其中涉及四个策略：

1）合理使用分隔符

2）确定输出格式要求，如JSON或者HTML

3）使用GPT对执行的必要条件进行校验，类似于开发过程中的参数校验

4）给出一定的示例让GPT按照用户的需求进行输出

果冻布丁兔，公众号：陆队长吴恩达教你使用GPT之用时间证明一切

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

可以看到这些方法，本质上都是基于prompt在工作，也存在不同的问题，例如：

对于pairwise comparison的评价数量会猛增，当待评估数量增加时，pairwise comparison可能缺乏可扩展性；

单一答案评分可能无法辨别特定对子之间的细微差别，而且其结果可能变得不稳定，因为如果裁判模型发生变化，绝对分数可能比pairwise comparison结果波动更大。

更进一步的，以上的方式都对充当评委的大模型本身提出了很高的要求。

实际上，LLM-as-a-judge提供了两个关键的好处：可扩展性和可解释性，可以减少了对人类参与的需求，实现了可扩展的基准和快速迭代。此外，LLM充当裁判不仅提供分数还提供解释，使他们的输出可以解释。

那么，其工作的基本原理是什么呢？

早期的工作工作《Large Language Models are not Fair Evaluators》（https://arxiv.org/pdf/2305.17926v1.pdf）表明，大型语言模型（如GPT-4）评估不同模型表现时存在系统性偏见，通过改变不同模型的答案在评价模版中的顺序，可以轻松篡改它们的质量排名，从而扭曲评估结果。如下图所示：

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》这一工作则更进一步地分成了Position bias位置偏见、Verbosity bias啰嗦性偏见、elf-enhancement bias自我增强的偏见以及Limited capability in grading math and reasoning questions对数学和推理问题的评分能力有限四个方面，具体如下：

1）Position bias，位置偏见

与上一个工作类似，该工作也发现，GPT4表现出倾向于某些位置上的结果，比如a放在b前，a的得分会更高。

图10显示了一个位置偏差的例子。当问答助理A被放在第一个位置时，GPT-4认为A更好，但当我们交换A和B的位置时，它的判决就会改变。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

此外，为了分析位置上的具体偏见，通过调用两次GPT-3.5，并设置温度为0.7（保证多样性），在MT-bench中为每个第一轮问题构建两个类似的答案，然后使用两个不同的提示语尝试三个LLM："default "表示默认提示，"rename "是对默认提示中的助手进行重命名，以查看偏见是在位置还是名字上。

如下表2所示，所有模型都表现出强烈的位置偏见。大多数LLM评委偏爱第一个位置。有趣的是，Claude-v1也表现出名字上的偏向，这使得它偏向于 "助理A"，这一点在 "重命名"提示中得到了说明。而位置偏差可能是非常显著的，只有GPT-4在超过60%的情况下输出一致的结果。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片