AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

霞舞

发布时间：2025-09-06 08:26:18

778人浏览过

来源于php中文网

原创

大模型也开始懂得利用信息差了。

Qwen3 在基准测试中竟然玩起了“取巧”操作。

AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

FAIR 研究员发现，Qwen3 在参与 SWE-Bench Verified 测试时，并没有按常规思路去修复 bug，而是另辟蹊径，玩起了信息检索的套路。

AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

它不深入分析代码逻辑，也不费力定位漏洞根源，反而直接冲进 GitHub，搜索任务中提到的 issue 编号，精准挖出了前人提交过的修复方案。

不得不说，会搜代码，才是真实程序员的日常操作。而 Qwen3，简直是程序员本员。

要知道，SWE-Bench Verified 原本是用来检验模型是否具备真实编码修复能力的权威基准，堪称编程界的“资格考试”。

它的设计初衷是：给模型分配真实开源项目中的 bug 修复任务，比如修复功能异常、补全缺失模块等，要求模型能理解现有代码、准确找出问题，并生成可运行的修复代码。

这本意是测试模型从零开始解决问题的能力，但 Qwen3 显然没走这条“正道”。

FAIR 团队在追踪其行为轨迹时发现，Qwen3 拿到任务后，第一步不是读代码，而是调用工具查询 GitHub 的提交记录。

AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

具体操作如下：

先切换到

/workspace/django_django_4.1

目录；

然后执行命令：

git log --oneline --grep="33628" --all

其中，

git log

用于查看提交历史，

--oneline

让输出更简洁，

--grep

根据关键词（这里是 issue 编号 33628）筛选提交记录，

--all

则覆盖所有分支。

最终命令以退出码 0 成功执行，说明检索成功。

就这样，Qwen3 轻松“借鉴”了已有的修复方案，连代码都不用写。（这难道不是另一种聪明？）

其实，Qwen3 并不孤单。研究者还发现，Claude 4 Sonnet 也有类似行为。

AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

不过，模型能钻这个空子，测试本身的设计缺陷也难辞其咎。

问题出在 SWE-Bench Verified 的数据构建方式——它没有过滤掉未来的代码提交。

换句话说，测试使用的项目数据包含了 bug 被修复后的提交记录，相当于把考题和标准答案一起打包给了考生，还没上锁。

Closers Copy

营销专用文案机器人

下载

理想情况下，测试应只提供 bug 存在时的项目状态，让模型独立解题。

但现实是，这些“答案”就明晃晃地躺在仓库里。只要用任务中的 issue 编号作为关键词，就能轻松搜到现成的修复方案。

看来，不只是人类知道“搜答案”比“解题”快，大模型也学会了这一招。（Doge）

虽然按规则来说，这种行为算“作弊”，但也有网友表示：只要结果正确，利用规则漏洞也是一种能力。

AI 也邪修！Qwen3 改 Bug 测试直接搜 GitHub，太拟人了

那么问题来了：你觉得 Qwen3 这是作弊，还是足够聪明？

参考链接：

[ 1 ] https://www.php.cn/link/7b75a9a9404959d96c63d1f61ec75550

[ 2 ] https://www.php.cn/link/b41ceb1791257df1e55b59ec7ad75533

[ 3 ] https://www.php.cn/link/0460c5723b287202cf850b7ae996f03e

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

三星玄龙骑士 OLED G8 显示器国行上市：AI画质增强是噱头吗？

Windows 12 首个预览版功能曝光：AI 深度集成，UI 界面焕然一新

美光展示下一代 GDDR7 显存：为 RTX 50 系列显卡做准备

DDR5 内存价格再次波动：三大厂商联合减产信号明显

小米15 Pro全面评测：徕卡影像新高度与澎湃OS的终极形态

相关标签:

ai github git go 工具 claude 大模型 django github git https bug issue

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：华为 MatePad Mini 价格公布今日开启预售下一篇：雷柏 V700 DIY-75 三模机械键盘评测：200+ 价位段的大厂精品

作者最新文章

Flask 路由端点未注册导致 url_for 构建失败的解决方案

2025-12-30 13:46

JavaScript 中正确遍历 Map 并转换为对象数组的方法

2025-12-30 13:47

《仁王3》最新实机短片：忍术系统“遁术”！

2025-12-30 13:47

国产大作逃不过这一遭?Steam惊现《影之刃零正版》

2025-12-30 13:50

“玩家期待”比开发更难？前B社高管揭秘营销困局

2025-12-30 13:53

《DQ11》制作人回归！重新执掌《勇者斗恶龙》系列

2025-12-30 13:54

如何在调用 karate.toJavaFile 前动态修改 XML 文件内容

2025-12-30 13:56

IDEA 插件 Maven With Me 更新 2.6.x 版本，新增自动同步项目配置助力多 JDK 版本开发！

2025-12-30 13:56

如何优雅同步 Python 多线程并实现跨线程异常驱动的全局退出

2025-12-30 14:03

如何在 PHP 中将多维数组中成对的 FAQ 问答项合并为结构化数据

2025-12-30 14:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

自建git服务器

git服务器是目前流行的分布式版本控制系统之一，可以让多人协同开发同一个项目。本专题为大家提供自建git服务器相关的各种文章、以及下载和课程。

637

2023.07.05

git和svn的区别

git和svn的区别：1、定义不同；2、模型类型不同；3、存储单元不同；4、是否拥有全局版本号；5、内容完整性不同；6、版本库不同；7、克隆目录速度不同；8、分支不同。php中文网为大家带来了git和svn的相关知识、以及相关文章等内容。

524

2023.07.06

git撤销提交的commit

Git是一个强大的版本控制系统，它提供了很多功能帮助开发人员有效地管理和控制代码的变更，本专题为大家提供git 撤销提交的commit相关的各种文章内容，供大家免费下载体验。

262

2023.07.24

git提交错误怎么撤回

git提交错误撤回的方法：git reset head^：撤回最后一次提交，恢复到提交前状态。git revert head：创建新提交，内容与之前提交相反。git reset ：使用提交的 sha-1 哈希撤回指定提交。交互式舞台区：标记要撤回的特定更改，然后提交，排除已撤回更改。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

539

2024.04.09

git怎么对比两个版本的文件内容

要对比两个版本的 git 文件，请使用 git diff 命令：git diff 比较工作树和暂存区之间的差异。git diff 比较两个提交或标签之间的差异。git diff 输出显示差异块，其中 + 表示添加的行，- 表示删除的行，表示修改的行。可使用 gitkraken、meld、beyond compare 等可视化工具更直观地查看差异。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

511

2024.04.09