最强大模型的视觉能力不如 6 岁小孩

花韻仙語

发布时间：2026-01-26 20:21:01

488人浏览过

来源于php中文网

原创

多家研究机构最新发布的 babyvision 视觉推理基准测试结果表明，当前性能最强的多模态大模型，在视觉推理能力上依然远未达到人类儿童的认知水平。

即便是表现最优的 Gemini 3 Pro Preview，其综合得分仅勉强超过3岁儿童，与6岁儿童相比仍有约20%的明显差距，距离成年人高达94.1%的准确率更是存在巨大鸿沟。

最强大模型的视觉能力不如 6 岁小孩

该研究由 UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示，Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首；紧随其后的是 GPT‑5.2（34.4%）与豆包 Seed‑1.8（30.2%）。

其余模型得分普遍偏低：Qwen3‑VL‑Plus 为19.2%，Grok‑4 为16.2%，Claude 4.5 Opus 仅为14.2%。在开源阵营中，Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一，但仍未具备与主流闭源模型抗衡的实力。

立即进入“豆包AI人工智官网入口”；

立即学习“豆包AI人工智能在线问答入口”；

研究指出，当前主流多模态大模型普遍依赖“视觉转语言”的推理范式——即先将图像编码为文本式表征，再交由语言模型完成后续逻辑推演。

这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性追踪等高度依赖非语言感知能力的任务时，存在本质性局限，致使模型在「找不同」「连线匹配」「空间构型想象」「视觉规律归纳」等典型任务中频繁失效。

BabyVision 基准将视觉推理能力划分为四大核心维度：细粒度辨别、视觉追踪、空间感知与视觉模式识别。结果显示，所有参测模型在这四个方向均暴露出系统性短板。

Onu

将脚本转换为内部工具，不需要前端代码。

下载

例如，Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应；Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。

研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战：

非言语性微细节信息难以保真，导致模型无法识别图像间细微差异；
流形一致性缺失，使其在复杂动态路径中难以维持稳定追踪；
空间想象能力薄弱，无法从二维输入可靠构建一致的三维心理表征；
视觉模式抽象与归纳能力不足，难以从有限示例中提炼可泛化的结构规则。

为突破现有“语言中心化”视觉推理范式的瓶颈，研究提出了两条可行的技术演进路径：基于可验证奖励信号的强化学习（RLVR）与基于生成模型的原生视觉推理。

实验表明，Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后，整体准确率提升约4.8个百分点；而在 BabyVision‑Gen 的生成式推理子集测试中，NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。

研究认为，未来多模态智能的发展重心，正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构，以及具备显式物理建模能力的新一代生成模型（如 Sora 2、Veo 3），已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。

研究团队强调，生成过程本身，或将成为一种更高阶、更本质的推理表达形式。

论文全文：https://www.php.cn/link/498bf3790c922596b795a8dfa3255b56

Torna 1.35.6 & 2.1.20 发布，接口文档解决方案

ip2region 3.13.0 发布 - 开源数据更新 / 中英双语 / iso 国家代号

Windows 11 记事本再升级，引入可选 AI 功能与富文本格式

ScienceMetaBench 开源：科学文献元数据提取评测基准

产教融合新成果！北京邮电大学《软件安全》课程助力 openKylin 发展

相关标签:

编码 ai gpt claude 大模型阿里巴巴 gemini 豆包 qwen 架构 https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Solon AI Remote Skills（Mcp Skill）：开启分布式技能的“感知”时代下一篇：Spring Modulith 2.1 M1、2.0.2 和 1.4.7 发布

作者最新文章

《控制》工作室被嘲讽：被卖了还帮数钱！

2026-01-24 09:57

Bootstrap 5 Tabs 首个标签页点击跳转顶部的解决方案

2026-01-24 09:59

《仁王3》官方17分长实机游玩视频公开

2026-01-24 10:02

如何在 Go 中使用 xlsx 库获取 Excel 表格中最后一个非空行的行号

2026-01-24 10:04

如何用 CSS 实现网格中行列等宽高的正方形布局

2026-01-24 10:08

如何正确将对象存入数组：Java中避免意外创建默认实例的实践指南

2026-01-24 10:09

如何在Python中正确使用pandas读取Excel文件

2026-01-24 10:15

OpenShift v0.3.3 样例应用中自签名证书验证失败的解决方法

2026-01-24 10:21

Java 中 Garage 类的汽车存储逻辑错误及修复指南

2026-01-24 10:24

XPath 表达式中基于子元素存在性筛选节点的写法

2026-01-24 10:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26