讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

王林

发布时间：2023-11-21 08:38:56

|

941人浏览过

|

来源于51CTO.COM

转载

gpt-4的图形推理能力，竟然连人类的一半都不到？

美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。

GPT-4v是具备多模态能力的，但其表现相对较差，只能正确回答25%的题目

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

△虚线表示16项任务的平均表现

这项实验结果一经发布，立即在YC上引起了广泛的讨论

一些支持这一结果的网友表示，GPT确实在处理抽象图形方面表现不佳，对于“位置”、“旋转”等概念的理解更加困难

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

然而，一些网友对这个结论表示怀疑，他们的观点可以简单概括为：

这个观点虽然不能说是错的，但是也无法完全让人信服

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

至于具体的原因，我们继续往下看。

GPT-4准确率仅33%

为了评估人类和GPT-4在这些图形题上的表现，研究者利用了今年5月推出的ConceptARC数据集

ConceptARC中一共包括16个子类的图形推理题，每类30道，一共480道题目。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

这16个子类包含了位置关系、形状、操作、比较等多个方面的内容

具体来说，这些题目都是由一个个像素块组成的。人类和GPT需要根据给定的示例来寻找规律，并分析出图像经过相同方式处理后的结果

作者在论文中具体展示了这16个子类的例题，每类各一道。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

结果451名人类受试者平均正确率，在各子项中均不低于83%，16项任务再做平均，则达到了91%。

在“放水”到一道题可以试三次（有一次对就算对）的情况下，GPT-4（单样本）的准确率最高不超过60%，平均值只有33%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

早些时候，这项实验涉及的ConceptARC Benchmark的作者也做过类似的实验，不过在GPT-4中进行的是零样本测试，结果16项任务的平均准确率只有19%。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

GPT-4v是一种多模态的模型，但准确率却较低。在一个由48道题组成的小规模ConceptARC数据集上，零样本测试和单样本测试的准确率分别只有25%和23%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

而研究者在进一步分析了错误答案后，发现人类的有些错误看上去很可能是“粗心导致”，而GPT则是完全没有理解题目中的规律。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

对于这些数据，大多数网友没有什么疑问，但引起这个实验备受质疑的是招募到的受试者群体以及提供给GPT的输入方式

受试者选择方式遭质疑

一开始，研究者在亚马逊的一个众包平台上招募受试者。

研究者从数据集中抽取了一些简单题目作为入门测试，受试者需要答对随机3道题目中的至少两道才能进入正式测试。

研究人员发现的结果显示，有些人只是出于贪图金钱的目的参加入门测试，而根本没有按照要求完成题目

迫不得已，研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务，且通过率要达到99%。

STORYD

STORYD

帮你写出让领导满意的精美文稿

下载

不过，虽然作者用通过率筛人，但是在具体能力上，除了需要受试者会英语，对图形等其他专业能力“没有特殊要求”。

为了实现数据的多样性，研究人员在实验的后期将招募工作转移到了另一个众包平台上。最终，共有415名被试者参与了这项实验

尽管如此，还是有人质疑实验中的样本“不够随机”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

还有网友指出，研究者用来招募受试者的亚马逊众包平台上，有大模型在冒充人类。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

多模态版本的GPT操作相对简单，只需直接传入图片，并使用相应的提示词即可

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在零样本测试中，只需删除相应的EXAMPLE部分

但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

针对这种操作，就有人表示不认同了：

把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

One More Thing

无独有偶，斯坦福大学的华裔博士生Joy Hsu也对GPT-4v的图形理解能力进行了几何数据集的测试

去年发布了一个数据集，旨在测试大型模型对欧氏几何的理解。在GPT-4v开放后，Hsu再次使用该数据集对其进行了测试

结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在数据方面，GPT-4v在回答这些几何问题上明显不如人类

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

论文地址：
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247

相关文章

如何用AI帮你翻译和润色简历？轻松应对外企求职

批改网AI检测工具如何查看语法错误_批改网AI检测工具语法错误定位与修正建议【攻略】

怎么用AI帮你写出符合品牌调性的社交媒体内容日历？

不会写活动策划案？教你用AI一键生成完整方案，从创意到落地

百度ai助手太烦了怎么关百度ai助手一键屏蔽神器

相关标签:

ai 子类 https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：谷歌升级 Chrome 应用商店：启用新设计、主推 AI 赋能扩展下一篇：微软发布 Win10 预览版本 19045.3757，带来了 Copilot AI 助手

作者最新文章

告别繁琐手动创建！MezzioTooling助你高效构建现代PHP应用

2025-09-15 11:32

如何解决复杂命令行任务的痛点，使用spryker/console让PHP命令开发更高效

2025-09-15 11:55

如何高效且灵活地管理电商订单计算？Spryker/Calculation模块助你一臂之力

2025-09-15 12:32

如何高效集成在线支付功能？Composer与iyzico/iyzipay-php助你轻松搞定！

2025-09-16 10:12

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1703

2024.08.16

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

7

2025.12.31

出现404解决方法大全

出现404解决方法大全

本专题整合了404错误解决方法大全，阅读专题下面的文章了解更多详细内容。

41

2025.12.31

html5怎么播放视频

html5怎么播放视频

想让网页流畅播放视频？本合集详解HTML5视频播放核心方法！涵盖<video>标签基础用法、多格式兼容（MP4/WebM/OGV）、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件，纯前端实现高清视频嵌入，助你快速打造现代化网页视频体验。

3

2025.12.31

关闭win10系统自动更新教程大全

关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全，阅读专题下面的文章了解更多详细内容。

3

2025.12.31

阻止电脑自动安装软件教程

阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程，阅读专题下面的文章了解更多详细教程。

3

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

10分钟--Midjourney创作自己的漫画

10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合

Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程

AI绘画教程

共2课时 | 0.2万人学习

最新文章

更多

怎么用ai写请假条 AI各种理由的正式请假申请模板【实操】

ChatGPT官方主页入口指南 ChatGPT网页版快速登录入口

通义万相批量生成商品图怎么用_通义万相批量生成商品图使用方法详细指南【教程】

批改网AI检测工具如何筛选高频错误_批改网AI检测工具错误统计与高频项查看【方法】

应届生求职攻略：如何用AI弥补工具打造一份HR无法拒绝的简历

DeepSeek 在非英语语种代码注释生成的表现

扣子AI怎么实现多语言交互_扣子AI多语言切换与翻译设置【教程】

如何用文心一言分析PDF文档批量提取关键信息使用方法

千问如何写旅游攻略提示词_千问旅游提示词路线与亮点【攻略】

tofai怎么添加文字内容 tofai文字编辑输入方法【步骤】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部