讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 科技周边 > 人工智能 > 正文

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

碧海醫心

发布： 2025-02-17 15:46:09

原创

450人浏览过

最新研究揭示大语言模型推理能力的局限性：enigmaeval 基准测试结果

Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL，再次挑战了大语言模型的推理能力。该基准包含 1184 个难题，涵盖解谜寻宝竞赛中的各种类型，测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类，分别包含 949 道和 235 道题目。难题以原始 PDF 图片和结构化文本-图像两种格式提供，以评估模型的端到端能力和独立推理能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

测试结果显示，即使是像 OpenAI 的 o1 这样的顶尖模型，在普通难度谜题上的准确率也仅为 7.0% 左右，在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。研究发现，模型在处理原始 PDF 格式的谜题时，性能会显著下降，这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。

ENIGMAEVAL 基准与此前发布的“人类的最后考试”（HLE）基准一起，为评估大语言模型提供了更全面的视角，并突显了当前模型在复杂推理任务上的不足。研究人员指出，AI 距离真正理解世界还有很长的路要走。值得注意的是，DeepSeek R1 未参与本次测试，其表现值得关注。

ENIGMAEVAL 基准的谜题来源及难度分布如下表所示：

Chatbase

Chatbase

从你的知识库中构建一个AI聊天机器人

Chatbase

117

Chatbase

普通难度谜题示例：

困难难度谜题示例：

实验结果表明，所有测试的顶尖 LLM 在 ENIGMAEVAL 上的表现都不理想，尤其是在困难难度谜题上完全失败。这进一步强调了当前大语言模型在复杂推理方面的挑战。

以上就是AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零的详细内容，更多请关注php中文网其它相关文章！

相关标签：

ai gemini deepseek for ocr

大家都在看：

怎么用ai装修房子 AI室内设计风格生成与软装搭配【方法】如何用AI自动生成正则表达式 AI正则代码编写助手【教程】如何用AI一键生成二次元动漫图 AI绘画动漫风格关键词设置【教程】怎么用ai做旅游攻略 AI个性化行程定制方法【攻略】如何用AI一键生成婚礼请柬 AI电子请帖H5制作生成器【教程】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：机构：下半年NAND Flash市场供需改善，价格有望回升下一篇：曝尚界首款车型年底发布华为参与打造 15万左右起售

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

老任太不人性化了！《小小书店》因1个词遭下架Switch商店

2025-12-18 12:23:20
《UNDERWARD》登陆Switch 2 好评合作恐怖探索

2025-12-18 12:30:38
微星PRO A1000PL PCIE5电源上市：ATX3.1+PCIe5.1双认证，首发699元

2025-12-18 12:30:54
制作人透露《星露谷物语》1.7版本将大幅扩展社交玩法

2025-12-18 12:43:14
这些黑人游戏角色强到爆炸手撕坦克、单挑神魔!

2025-12-18 12:45:13
凝练精致！《影之刃零》将学习《33号远征队》精简游戏内容

2025-12-18 13:31:02
真实到像是现实？被逼自证的FPS活了!官方：钱已到位

2025-12-18 13:31:12
鉴于《地平线6》开发要求:《极限竞速8》将停更

2025-12-18 13:40:03
与徕卡合作升级小米17 Ultra官宣！博主称小米也要有自己的非凡大师：堆料远超友商

2025-12-18 13:41:01
《光与影：33号远征队》确认在开发过程中也使用了生成式AI

2025-12-18 13:44:03

最新问题

Claude如何分析复杂的代码库 Claude编程项目理解需采用系统性提示策略与分层分析方法：一、构建上下文感知初始提示；二、按依赖关系逐层解析模块职责；三、定位关键执行路径动态切片；四、生成可验证的架构假设文档。

2025-12-19 21:29:02

773

AI一键生成高质量求职简历 AI工具可快速生成专业简历，路径包括：一、使用“超级简历”等垂直平台，输入信息后智能生成并优化；二、调用大模型API嵌入表单，按STAR法则生成结构化内容；三、利用WPS或Word内置AI实时生成与润色。

2025-12-19 20:56:02

777

如何用AI一键生成旅游攻略 AI旅行行程规划助手使用指南【教程】可借助讯飞星火、文心一言、百度地图、Coze及智谱AutoGLM五大AI工具一键生成定制化旅游行程：分别支持智能体调用、联网实时检索、GIS可视化动线、零代码工作流搭建与多源深度验证。

2025-12-19 20:49:11

832

千问怎么调整回答详细程度_千问回答详略度调节操作步骤【设置】可通过temperature、max_tokens、system提示词、深度思考模式及top_p与presence_penalty组合五种方式调控千问回答详略度：temperature低则简洁、高则详尽；max_tokens限制输出长度；system指令明确要求格式；深度思考模式增强推理；top_p与presence_penalty协同提升信息密度。

2025-12-19 20:17:04

827

runwayml如何用绿幕功能替换背景_RunwayML绿幕抠像替换背景流程【技巧】 RunwayML绿幕替换需分五步：一、用RemoveBackground自动抠像并微调边缘；二、用GreenScreen色度键控精准采样并抑制溢出；三、导入动态背景合成并收紧边缘；四、用MaskEditor精细化修复毛发等细节；五、批量复制参数提升多镜头处理效率。

2025-12-19 20:03:18

272

如何用AI一键生成网页配色方案 AI UI设计配色推荐工具【教程】可借助AI配色工具快速生成专业配色方案：一、AdobeColorAI依图像或关键词提取主色并导出CSS；二、Coolors.coAI依描述生成高对比度配色；三、GalileoAI在Figma中一键应用配色；四、ColorMind开源模型支持本地离线预测。

2025-12-19 19:46:02

416

kimi生成ppt怎么提高效率_kimi快速生成ppt怎么操作 Kimi生成PPT高效关键在前期精准输入与后期智能调整：需明确主题+场景、页数构成及3–5个必讲重点；善用文档导入自动解析；提前按场景、主色、页数逻辑选模板；编辑时应进在线编辑器单页修改，避免全稿重做。

2025-12-19 19:45:38

499

怎么用ai进行代码审查 AI代码优化建议与Bug查找【进阶】需通过语义理解与上下文感知实现深度代码审查，路径包括：一、LLM交互式分析；二、AST驱动的AI静态分析；三、PR级增量AI流水线；四、领域微调模型；五、IDE内嵌实时辅助。

2025-12-19 19:37:02

361

豆包图片生成在哪里可以找到_豆包图片生成入口最准教程一键定位豆包图片生成功能可通过四种方式快速定位：一、网页端点击左侧“超能创意”标签；二、App端点底部“想象”按钮或“+”中选“图片生成”；三、搜索框输入“生成图片”触发；四、从含图片关键词的历史对话唤醒。

2025-12-19 19:31:03

359

怎么用ai装修房子 AI室内设计风格生成与软装搭配【方法】 AI装修设计可通过四类方法启动：一、上传户型图至酷家乐等平台，AI自动识别结构并生成3D风格方案；二、用StableDiffusion等文生图工具输入结构化提示词生成软装参考图；三、导入实景照片进行AI材质替换与家具叠加；四、上传已有单品（如沙发）由AI配色引擎反向推荐墙面色、窗帘等协调方案。

2025-12-19 19:23:02

551

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

5277次学习
收藏
Node.js 教程

67986次学习
收藏
CSS3 教程

37786次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部