0

0

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

霞舞

霞舞

发布时间:2025-09-06 08:26:18

|

778人浏览过

|

来源于php中文网

原创

大模型也开始懂得利用信息差了。

Qwen3 在基准测试中竟然玩起了“取巧”操作。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

FAIR 研究员发现,Qwen3 在参与 SWE-Bench Verified 测试时,并没有按常规思路去修复 bug,而是另辟蹊径,玩起了信息检索的套路。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

它不深入分析代码逻辑,也不费力定位漏洞根源,反而直接冲进 GitHub,搜索任务中提到的 issue 编号,精准挖出了前人提交过的修复方案。

不得不说,会搜代码,才是真实程序员的日常操作。而 Qwen3,简直是程序员本员。

要知道,SWE-Bench Verified 原本是用来检验模型是否具备真实编码修复能力的权威基准,堪称编程界的“资格考试”。

它的设计初衷是:给模型分配真实开源项目中的 bug 修复任务,比如修复功能异常、补全缺失模块等,要求模型能理解现有代码、准确找出问题,并生成可运行的修复代码。

这本意是测试模型从零开始解决问题的能力,但 Qwen3 显然没走这条“正道”。

FAIR 团队在追踪其行为轨迹时发现,Qwen3 拿到任务后,第一步不是读代码,而是调用工具查询 GitHub 的提交记录。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

具体操作如下:

先切换到

/workspace/django_django_4.1
目录;

然后执行命令:

git log --oneline --grep="33628" --all

其中,

git log
用于查看提交历史,
--oneline
让输出更简洁,
--grep
根据关键词(这里是 issue 编号 33628)筛选提交记录,
--all
则覆盖所有分支。

最终命令以退出码 0 成功执行,说明检索成功。

就这样,Qwen3 轻松“借鉴”了已有的修复方案,连代码都不用写。(这难道不是另一种聪明?)

其实,Qwen3 并不孤单。研究者还发现,Claude 4 Sonnet 也有类似行为。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

不过,模型能钻这个空子,测试本身的设计缺陷也难辞其咎。

问题出在 SWE-Bench Verified 的数据构建方式——它没有过滤掉未来的代码提交。

换句话说,测试使用的项目数据包含了 bug 被修复后的提交记录,相当于把考题和标准答案一起打包给了考生,还没上锁。

Closers Copy
Closers Copy

营销专用文案机器人

下载

理想情况下,测试应只提供 bug 存在时的项目状态,让模型独立解题。

但现实是,这些“答案”就明晃晃地躺在仓库里。只要用任务中的 issue 编号作为关键词,就能轻松搜到现成的修复方案。

看来,不只是人类知道“搜答案”比“解题”快,大模型也学会了这一招。(Doge)

虽然按规则来说,这种行为算“作弊”,但也有网友表示:只要结果正确,利用规则漏洞也是一种能力。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

那么问题来了:你觉得 Qwen3 这是作弊,还是足够聪明?

参考链接:

[ 1 ] https://www.php.cn/link/7b75a9a9404959d96c63d1f61ec75550

[ 2 ] https://www.php.cn/link/b41ceb1791257df1e55b59ec7ad75533

[ 3 ] https://www.php.cn/link/0460c5723b287202cf850b7ae996f03e

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法!

— 完 —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

相关专题

更多
自建git服务器
自建git服务器

git服务器是目前流行的分布式版本控制系统之一,可以让多人协同开发同一个项目。本专题为大家提供自建git服务器相关的各种文章、以及下载和课程。

637

2023.07.05

git和svn的区别
git和svn的区别

git和svn的区别:1、定义不同;2、模型类型不同;3、存储单元不同;4、是否拥有全局版本号;5、内容完整性不同;6、版本库不同;7、克隆目录速度不同;8、分支不同。php中文网为大家带来了git和svn的相关知识、以及相关文章等内容。

524

2023.07.06

git撤销提交的commit
git撤销提交的commit

Git是一个强大的版本控制系统,它提供了很多功能帮助开发人员有效地管理和控制代码的变更,本专题为大家提供git 撤销提交的commit相关的各种文章内容,供大家免费下载体验。

262

2023.07.24

git提交错误怎么撤回
git提交错误怎么撤回

git提交错误撤回的方法:git reset head^:撤回最后一次提交,恢复到提交前状态。git revert head:创建新提交,内容与之前提交相反。git reset :使用提交的 sha-1 哈希撤回指定提交。交互式舞台区:标记要撤回的特定更改,然后提交,排除已撤回更改。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

539

2024.04.09

git怎么对比两个版本的文件内容
git怎么对比两个版本的文件内容

要对比两个版本的 git 文件,请使用 git diff 命令:git diff 比较工作树和暂存区之间的差异。git diff 比较两个提交或标签之间的差异。git diff 输出显示差异块,其中 + 表示添加的行,- 表示删除的行, 表示修改的行。可使用 gitkraken、meld、beyond compare 等可视化工具更直观地查看差异。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

511

2024.04.09

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1723

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

43

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

35

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号