0

0

如何分析GPT4作为裁判自动化评测其他大模型的效果

WBOY

WBOY

发布时间:2024-05-10 13:04:35

|

791人浏览过

|

来源于51CTO.COM

转载

在当前大模型领域,最为普遍或者最为认可的评估方式就是使用参数更大或者使用GPT模型作为评估基准,用于评估其他的大模型,以满足自动化评测的目标。

使用GPT4等模型进行打分可能存在各种问题,例如,使用GPT对两个候选结果进行打分时,如果出现交换问题序列就可能产生相互冲突的结果。因此,即使GPT模型评测时可能会偏向于某个特定位置的回答,但这个结果并不代表最终的答案。

在文章《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》提出了3种LLM-as-a-judge的实现方式,它们可以独立或组合实施:

1)成对比较(pairwise comparison)

为了更准确地评估LLM的性能,我们可以尝试利用不同的prompt来针对问题和提供的不同答案,以确定哪个答案更适合或者更符合一个普遍的观点。

这种方案实际上就是内容理解的一种综合应用,也是当前内容生成的主要研究方向之一。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

2)单一答案的评分(single answer grading)

在于:让LLM评委直接给一个答案打分单一答案。这种方案实际上在评测集的使用中非常适用,比如评估测试集的毒性,或者生成内容与问题的相关性等等。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

3)参考资料指导下的评分(Reference-guided grading)

参考资料指导下的评分的思想是,在某些情况下,提供一个可参考解决方案,这个方案的提供对于评价体系可能是有益的,主要是给出一个评分的样例。

实际上,在吴恩达老师的prompt指导中也提到了类似的能力,也就是通过示例提升LLM的生成效果。

美图AI开放平台
美图AI开放平台

美图推出的AI人脸图像处理平台

下载

prompt书写最重要的原则就是详细明确,其中涉及四个策略: 

1)合理使用分隔符 

2)确定输出格式要求,如JSON或者HTML 

3)使用GPT对执行的必要条件进行校验,类似于开发过程中的参数校验 

4)给出一定的示例让GPT按照用户的需求进行输出

果冻布丁兔,公众号:陆队长吴恩达教你使用GPT之用时间证明一切

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

可以看到这些方法,本质上都是基于prompt在工作,也存在不同的问题,例如:

对于pairwise comparison的评价数量会猛增,当待评估数量增加时,pairwise comparison可能缺乏可扩展性;

单一答案评分可能无法辨别特定对子之间的细微差别,而且其结果可能变得不稳定,因为如果裁判模型发生变化,绝对分数可能比pairwise comparison结果波动更大。

更进一步的,以上的方式都对充当评委的大模型本身提出了很高的要求。

实际上,LLM-as-a-judge提供了两个关键的好处:可扩展性和可解释性,可以减少了对人类参与的需求,实现了可扩展的基准和快速迭代。此外,LLM充当裁判不仅提供分数还提供解释,使他们的输出可以解释。

那么,其工作的基本原理是什么呢?

早期的工作工作《Large Language Models are not Fair Evaluators》(https://arxiv.org/pdf/2305.17926v1.pdf)表明,大型语言模型(如GPT-4)评估不同模型表现时存在系统性偏见,通过改变不同模型的答案在评价模版中的顺序,可以轻松篡改它们的质量排名,从而扭曲评估结果。如下图所示:

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》这一工作则更进一步地分成了Position bias位置偏见、Verbosity bias啰嗦性偏见、elf-enhancement bias自我增强的偏见以及Limited capability in grading math and reasoning questions对数学和推理问题的评分能力有限四个方面,具体如下:

1)Position bias,位置偏见

与上一个工作类似,该工作也发现,GPT4表现出倾向于某些位置上的结果,比如a放在b前,a的得分会更高。

图10显示了一个位置偏差的例子。当问答助理A被放在第一个位置时,GPT-4认为A更好,但当我们交换A和B的位置时,它的判决就会改变。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

此外,为了分析位置上的具体偏见,通过调用两次GPT-3.5,并设置温度为0.7(保证多样性),在MT-bench中为每个第一轮问题构建两个类似的答案,然后使用两个不同的提示语尝试三个LLM:"default "表示默认提示,"rename "是对默认提示中的助手进行重命名,以查看偏见是在位置还是名字上。

如下表2所示,所有模型都表现出强烈的位置偏见。大多数LLM评委偏爱第一个位置。有趣的是,Claude-v1也表现出名字上的偏向,这使得它偏向于 "助理A",这一点在 "重命名"提示中得到了说明。而位置偏差可能是非常显著的,只有GPT-4在超过60%的情况下输出一致的结果。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

不过,工作中也提到,这个测试是具有挑战性的,因为答案是非常相似的,有时甚至对人类来说是无法区分的,位置偏差在某些情况下不太突出。至于这种偏差的起源,怀疑它可能源于训练数据或Transformer从左到右的固有结构。

2)Verbosity bias,啰嗦性偏见

啰嗦性偏见,指的是GPT4偏爱较长的、啰嗦的回答,即使不如较短的回答清晰、高质量或准确。

那么,这个是怎么发现的?

该工作使用MT-bench的模型答案设计了一个 "重复列表 "攻击。

具体的,首先从MT-bench中选择了23个包含编号列表的示范答案,然后要求GPT-4在不增加任何新信息的情况下重写清单,并将重写后的新清单插入到原始清单的开头,从而使其变得不必要的冗长。

例如,如果原始回答包含5个项目,那么新的回应将包含10个项目,但前5个项目是由原来的5个项目改写的。

图11展示了一个"重复列表 "攻击的例子,除了两个重新措辞的片段(以红色标示)之外,助理A的答案与助理B完全相同,如果LLM法官认为新的回答比旧的回答好,那么定义该攻击是成功的。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

现在我们来看测试结果,表3显示了在这种攻击下LLM法官的失败率,表明所有的LLM都可能容易出现言语偏差,尽管GPT-4的防御效果明显好于其他。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

作为校准评估,该工作发现LLM评委能够正确判断相同的答案,大模型总是对两个相同的答案返回一个平局,但不能通过更高级的 "重复列表 "攻击。

也可以看到,GPT-3.5和Claude-v1都显示出对较长和重复的答案的动词性偏见,只有GPT-4成功地检测到这种攻击。

3)Self-enhancement bias,自我增强的偏见

自我增强的偏见,指的是GPT4可能偏爱自己产生的答案的效果,谁跟它更接近,他就给谁打高分。

该工作从统计学的角度来研究这种影响,下图3(b)显示了在不同的LLM评委和人类的情况下,六个模型的获胜率(不含平局)。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

可以看到,与人类相比,确实观察到一些大模型偏爱某些模型。例如:

GPT-4对自己有利,胜率高出10%;Claude-v1对自己有利,胜率高出25%。此外,他们也青睐其他模型,但GPT-3.5并不青睐自己。

不过,需要坦白的是,由于数据有限且差异较小,这些研究无法确定这些模型是否表现出自我增强的偏见,而且进行对照研究是具有挑战性的,因为不能轻易地重新措辞以适应另一个模型的风格而不改变数据质量本身。

4)Limited capability in grading math and reasoning questions,对数学和推理问题的评分能力有限

这个是很自然的,让一群小学生来评价高中生的表现是一件很扯淡的事情。我们都知道,GPT4的数学和推理能力有限,这导致它无法对这类问题进行评分,因为他们往往不知道正确答案。

如图12所示,在默认的提示下,GPT-4显示出对数学问题进行评分的有限能力。尽管能够回答问题本身,但它的判断受到了给定答案的影响,导致了黄色显示的算术错误。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

又如,图13显示了GPT-4对推理题评分能力有限的一个例子。尽管GPT-4知道如何解决这个问题(如果分开问的话),但它做出了错误的判断,说两个助手的错误答案都是正确的。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

上面主要针对GPT4的一些评判误区或者说影响最终评判结果的原因和背后原理,在真实使用场景中,如果发现结果牵强人意或者一直不符合预期,可能也和这些原因相关,可以考虑是否需要做一定修改。

本文主要来自于http://lechangxia.cc/gpt4/411.html相关的内容,我也做了一定的修改。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

412

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

533

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

310

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

74

2025.09.10

html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

616

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

653

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号