讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 新闻 > IT新闻 > 正文

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

聖光之護

发布： 2025-09-23 12:42:44

原创

399人浏览过

scale ai最新发布的swe-bench pro编程能力评估结果显示，即便是当前最前沿的模型如gpt-5、claude opus4.1和gemini2.5，也未能突破25%的解决率门槛。

其中，GPT-5仅取得23.3%的解决率，Claude Opus4.1以22.7%紧随其后，而Google的Gemini2.5则表现更弱，仅有13.5%的任务被成功解决。

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

前OpenAI研究员Neil Chowdhury指出，当GPT-5决定尝试解决问题时，其实际成功率高达63%，远超Claude Opus4.1的31%。这表明尽管GPT-5在整体得分上并不突出，但在它认为可以处理的任务中，依然具备显著的技术领先优势。

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

与以往常出现70%以上高分的SWE-Bench-Verified测试不同，SWE-BENCH PRO特别排除了所有可能已用于训练的数据，从根本上杜绝了数据泄露或记忆式答题的可能性。这一改进使得模型必须依赖真实的理解与推理能力来应对挑战，而非依赖训练过程中的“死记硬背”。

小微助手

小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

小微助手

249

小微助手

该评测覆盖了来自真实商业应用与开发工具的1865个实际问题，题目被划分为公共集、商业集和保留集三个层级，确保测试内容对所有模型而言都是全新的。同时，研究团队还引入人工增强机制，进一步提升了任务的真实性和复杂度。

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

测评结果也揭示了当前AI代码生成模型的核心短板——面对真实世界中的工程问题，其能力仍十分有限。尤其是在JavaScript和TypeScript等广泛使用的语言上，各模型的表现波动剧烈且难以预测。深入分析显示，不同模型在处理相似任务时展现出截然不同的行为模式，反映出背后技术路线与训练策略的根本差异。

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

以上就是AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%的详细内容，更多请关注php中文网其它相关文章！

相关标签：

javascript java go typescript 工具 ai openai gpt gpt-5 google JavaScript typescript gpt

大家都在看：

微信小程序官宣将在 iOS 端支持接入虚拟支付，苹果抽成 15% 微软宣布 Aspire 走向多语言化 Microcks 1.13.0 发布尤雨溪创业公司 VoidZero 完成 1250 万美元 A 轮融资 Electron 39.0.0 发布，跨平台桌面应用开发工具

编程速学教程(入门课程)

编程速学教程(入门课程)

编程怎么学习？编程怎么入门？编程在哪学？编程怎么学才快？不用担心，这里为大家提供了编程速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：2025 年高性价比游戏本精选：性能体验双重升级轻松驾驭3A大作的优质机型下一篇：罗永浩深夜发声：要和团队把大部分预制菜测试一遍

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

《天国：拯救2》主笔大胆预测：AI革命或意味着“人类的终结”

2025-12-18 12:36:13
《战地6》稳居25年美国游戏销量榜首！畅销榜公布

2025-12-18 12:39:12
扫地机器人鼻祖 iRobot 宣布破产，将由中国代工厂接手

2025-12-18 12:43:02
Torna 1.35.0 发布，接口文档解决方案

2025-12-18 12:48:02
《艾尔登法环：黑夜君临》新强化BOSS实装高难度安宁者

2025-12-18 12:50:12
小米17 Ultra下周登场！卢伟冰：小米正代高端旗舰全部当年发布

2025-12-18 12:51:07
荣耀Magic8 Mini加速来袭，小屏旗舰赛道迎新玩家

2025-12-18 13:25:02
山海进化录神山十五打法攻略分享

2025-12-18 13:34:02
新三国志曹操传阵营科技系统玩法

2025-12-18 13:36:08
Visual Studio Code 1.107 发布

2025-12-18 13:45:12

最新问题

谷歌仍是最大威胁！奥尔特曼坦言 OpenAI 将常态化 AI 红色警报 12月20日消息，OpenAI首席执行官山姆・奥尔特曼（SamAltman）在近期一次访谈中直言：即便手握雄厚资本与先发优势，谷歌（Google）依然是OpenAI“最严峻的对手”。在接受科技播客BigTechnology主持人AlexKantrowitz采访时，奥尔特曼强调，“适度的偏执”是科技企业持续生存的关键心态。他指出，一旦察觉潜在竞争压力浮现，必须立刻启动应对机制。他进一步透露，为巩固行业主导地位，OpenAI很可能在未来多年内，每年例行启动一至两次“红色警报（Cod

2025-12-20 18:07:02

574

写给小白的芯片封装入门科普之前给大家介绍了晶圆制备和芯片制造：晶圆是如何制造出来的？从入门到放弃，芯片的详细制造流程！从今天开始，我们聊聊芯片的封装和测试（通常简称“封测”）。这一部分，在行业里也被称为后道（BackEnd）工序，一般都是由OSAT封测厂（OutsourcedSemiconductorAssemblyandTest，外包半导体封装与测试）负责。█封装的目的先说封装。封装这个词，其实我们经常会听到。它主要是指把晶圆上的裸芯片（晶粒）变成最终成品芯片的过程。之所以要做封装，主要目的有两个。一个是对脆弱的

2025-12-20 16:54:23

513

沪渝蓉高铁武宜段即将开通，武汉至宜昌最快 1 小时可达 12月20日消息，中国铁路今日正式公布，沪渝蓉高铁武汉至宜昌段进入开通运营倒计时。据悉，该线路是国家“八纵八横”高速铁路网沿江通道的关键一环，线路自武汉市汉口站引出，途经天门市、荆门市，终至宜昌市宜昌北站，正线全长约313公里，设计时速350公里。项目通车后，将在江汉平原与鄂西山区之间构筑起一条高效便捷的高速客运走廊。全线共设汉口、汉川北、天门、京山南、钟祥南、荆门西、当阳西、宜昌北8座车站，其中汉口站为既有枢纽站，荆门西站为前期已启用的过渡性车站，其余均为全新建设车站。公开信息显示，沿江高铁武

2025-12-20 16:54:13

800

京港高铁南昌至九江段全线开始铺轨，通行将缩至半小时内感谢网友若怡提供的线索！12月19日消息，今日在京港高速铁路南昌至九江段（简称“昌九高铁”）尖山岭隧道铺轨作业现场，首对500米长钢轨顺利完成铺设并精准就位，这标志着昌九高铁全面迈入全线铺轨施工新阶段。据官方资料介绍，昌九高铁正线全长138公里，设计最高运营时速为350公里，全线共设庐山、庐山南、共青城东、昌北机场、南昌东等5座车站。项目包含桥梁58座、隧道21座，桥隧总占比达82%。整条线路需完成共计295.28公里的钢轨铺设任务。待铺轨工作全部完成后，工程将转入轨道精细调整及静态验收环节，为

2025-12-20 15:09:08

497

AI新十大建设硅光子AI生态链座谈会新竹登场行政院以「AI新十大建设」布局数位基础、关键技术与智慧应用，强化台湾在新一一代运算架构的竞争力。国家科学及技术委员会（国科会）今（19）日于新竹举办「台湾硅光子CPO-AI生态链座谈会」，聚集国内硅光子、共封装光学（Co-PackagedOptics，CPO）、半导体製造、先进封装、光电、网通与伺服器系统等领域的领导厂商及顶尖学研团队，共商下一代AI运算架构未来发展方向。总统赖清德亦亲自出席并表示，台湾完整的半导体、光电供应链基础，将有利于硅光子与CPO技术发展。赖清德致词

2025-12-20 14:10:02

643

果粉心碎？摺叠iPhone进度落后、良率成致命伤分析师曝「这时」入手才算稳知名天风国际证券分析师郭明錤（Ming-ChiKuo）近期在MacroMicroPodcast节目中，透露了苹果（Apple）折叠式iPhone的最新研发动态。据其透露，受制于初期制造良率偏低及产能爬坡（Ramp-up）进程缓慢等现实挑战，这款备受期待的折叠机型，预计要等到2027年才有望进入稳定量产与出货阶段。发布与上市或将错位重演「iPhoneX模式」郭明錤指出，尽管折叠iPhone的开发节奏略逊于先前预期，但苹果仍计划于2026年下半年举行正式发布会。不过，他同时强调，

2025-12-20 13:43:12

215

算力就是国力！国网中心推生成式AI平台TAIWAN AI RAP 国家实验研究院国家高速网络与计算中心正式推出「TAIWANAIRAP生成式人工智能应用开发服务平台」，旨在简化AI开发流程，打造企业及研发团队可即用、易上手的一站式开发环境，加速人工智慧技术在各产业的落地实践。国网中心指出，TAIWANAIRAP由中心自主研发，深度融合国家级高效能运算资源、弹性云端架构与符合机敏资料规范的安全储存机制，构建出整合算力调度、预训练模型调用与完整工具链支援的AI开发平台。其名称中「RAP」为「Resilientandhigh‑performanceAIPlat

2025-12-20 13:22:01

104

科幻电影《阿凡达 3》今日上映，豆瓣开分 7.6 为系列最低感谢网友啊俊、大哦东东东提供的线索！12月19日消息，万众期待的科幻巨制《阿凡达：火与烬》已于今日正式登陆全国院线，豆瓣评分也同步揭晓。数据显示，《阿凡达》第一部豆瓣评分为8.8分，《阿凡达：水之道》为7.8分，而此次上映的第三部《阿凡达：火与烬》评分为7.6分，创下该系列目前最低纪录：5星：24.7%4星：39.9%3星：28.1%2星：6.3%1星：1.0%本片由詹姆斯・卡梅隆再度掌镜，佐伊・索尔达娜、萨姆・沃辛顿等核心主演悉数回归。影片放映技术支持

2025-12-20 12:59:16

985

真人 GTA：美国男子凌晨偷飞机，还没起飞就撞上机库真人GTA上演现实版：美国男子凌晨潜入机场偷飞机，尚未升空便撞毁机库12月19日最新消息，据福克斯新闻数字频道报道，一架小型飞机于当地时间周四凌晨在洛杉矶某机场撞击并损毁一座建筑。洛杉矶机场警察局通报称，一名男子于凌晨4时许非法闯入机场设施，并擅自启动并操控了一架飞机。美国联邦航空管理局（FAA）确认，涉事机型为单引擎的塞斯纳C172，事故发生在当地时间凌晨5点左右，飞机在移动过程中猛烈撞上一座机库。执法机构已锁定嫌疑人身份——现年37岁的美国公民CeffearenoLogan，其因涉嫌非法侵入

2025-12-20 12:58:31

511

摺叠iPhone展开变身iPad mini？最新渲染图外流揭露超宽比例随着苹果（Apple）首款折叠设备预计于2026年底亮相，外界对其外观形态的热议持续升温。据德国科技媒体iPhone-Ticker.de近日公开的一组被指源自配件制造商的CAD设计图显示，iPhoneFold或将采用一种更宽、更紧凑的机身比例，其展开后的视觉体验与iPadmini高度趋近。放弃修长路线，主打「护照式」矮胖构型数据显示，iPhoneFold在折叠状态下单侧宽度为83.8毫米，高度为120.6毫米。相较iPhoneAir约74.7毫米的宽度，该机明显更宽、更矮，整体轮廓与其说是两台

2025-12-20 12:36:08

757

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

React 教程

27306次学习
收藏
TypeScript 教程

16191次学习
收藏
Bootstrap 5教程

24590次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部