0

0

89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞

WBOY

WBOY

发布时间:2023-04-12 11:19:05

|

2026人浏览过

|

来源于51CTO.COM

转载

AI写代码,省时又省力。

但最近斯坦福大学的计算机科学家发现,程序员用AI助手写出来的代码实际上漏洞百出?

他们发现,接受Github Copilot等AI工具帮助的程序员编写代码,不管在安全性还是准确性方面,反而不如独自编写的程序员。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

在「AI助手是否让使用者编写的代码不安全?」(Do Users Write More Insecure Code with AI Assistants?)一文中,斯坦福大学的boffins Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh进行了首次大规模用户调研。

论文链接:https://arxiv.org/pdf/2211.03622.pdf

研究的目标是探究用户是如何与AI Code助手交互以解决不同编程语言的各种安全任务。

作者在论文中指出:

我们发现,与未使用AI助手的参与者相比,使用AI助手的参与者通常会产生更多的安全漏洞,尤其是字符串加密和 SQL 注入的结果。同时,使用AI助手的参与者更有可能相信他们编写了安全代码。

此前纽约大学的研究人员已经表明,基于人工智能的编程在不同条件下的实验下都是不安全的。

在2021年8月的一篇论文「Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions」中,斯坦福学者们发现在给定的89种情况下,在Copilot的帮助下制作的计算机程序中,约40%可能具有潜在的安全隐患和可利用的漏洞。

但他们说,之前研究的范围有限,因为它只考虑了一组受限的提示,并且只包含了三种编程语言:Python、C语言和 Verilog。

斯坦福大学的学者们还引用了纽约大学的后续研究,然而因为它侧重于OpenAI的codex-davinci-002模型,而不是功能较弱的codex-cushman-001模型,两者都在 GitHub Copilot 中发挥作用,而GitHub Copilot本身是一个经过微调的后代GPT-3语言模型。

对于特定的问题,只有67%的受助组给出了正确答案,而79%的对照组给出了正确答案。

图片

图为每个问题回答正确性的百分比 (%),每列中的成对值对应于实验组(蓝色)/对照组(绿色),空白单元格代表0

结果表明,实验组「明显更有可能提供不安全的解决方案(p

接下来看看这个研究是咋进行的。

实验设计和前期准备

我们选择的问题可以在短时间内解决,并涵盖了广泛的潜在安全错误。

我们想要检查的关键领域是库的使用(加密/解密)、处理用户控制的数据(用户在沙盒目录中提供的路径、脚本注入)、常见的Web漏洞(SQL 注入 、脚本注入)和内存管理等底层问题(缓冲区溢出、整数溢出等)。

我们的主要目标是招募具有各种编程经验的参与者,以了解他们可能如何处理与安全相关的编程问题。

为此我们招募了美国两所大型大学的本科生和研究生,以及来自四家不同公司的几名专业编写代码的受试者。

下图为实验受试者的人口统计学图表。

图片

为了验证参与者是否具备编程知识,我们在研究之前询问了一个简短的预筛选问题,这些问题涵盖了上文提到的安全和编程语言领域:

  • 在Python中编写两个函数,其中一个使用给定的对称密钥对给定的字符串进行加密,另一个对给定的字符串进行解密;
  • 用Python编写一个函数,使用给定的ECDSA签名密钥对给定的消息进行签名;
  • 用Python编写一个函数,将表示文件路径的字符串路径作为输入,并返回path处文件的File对象;
  • 有一个「STUDENTS的SQL 表」,编写一个 Javascript 函数,将字符串名称和整数年龄作为输入,并添加一个新条目;
  • 用C语言编写一个函数,它接受一个带符号的整数num并返回该整数的字符串表示形式;
  • 编写一个Javascript 函数,接收用户提供的字符串输入并将其显示在浏览器窗口中。

研究过程

我们以随机顺序向参与者展示每个与安全相关的编程问题,并且参与者可以以任何顺序尝试问题。

我们还允许参与者访问外部网络浏览器,无论他们是在对照组还是实验组,他们都可以使用它来解决任何问题。

我们通过在研究管理员的计算机上运行的虚拟机向参与者展示了研究仪器。

除了为每个参与者创建丰富的日志外,我们还会在参与者同意的情况下对过程进行屏幕录制和录音。

当参与者完成每个问题后,系统会提示他们进行简短的退出调查,描述他们编写代码的经历并询问一些基本的人口统计信息。

研究结论

最后,用李克特量表对参与者调查后问题的回答进行了统计,这些问题涉及对解决方案正确性、安全性的信念,在实验组中还包括AI为每项任务生成安全代码的能力。

图片

图为受试者对问题解决准确性和安全性的判断,不同颜色条块代表赞同程度

我们观察到,与我们的对照组相比,有权访问 AI 助手的参与者更有可能为大多数编程任务引入安全漏洞,但也更有可能将他们不安全的答案评为安全。

此外,我们发现,在创建对AI助手的查询方面投入更多(例如提供辅助功能或调整参数)的参与者更有可能最终提供安全的解决方案。

最后,为了进行这项研究,我们创建了一个用户界面,专门用于探索人们使用基于AI的代码生成工具编写软件的结果。

我们在Github上发布了我们的UI以及所有用户提示和交互数据,以鼓励进一步研究用户可能选择与通用AI代码助手交互的各种方式。

相关专题

更多
c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

26

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

24

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

72

2026.01.09

学python网站汇总
学python网站汇总

本专题整合了学python网站汇总,阅读专题下面的文章了解更多详细内容。

9

2026.01.09

python学习网站
python学习网站

本专题整合了python学习相关推荐汇总,阅读专题下面的文章了解更多详细内容。

10

2026.01.09

俄罗斯手机浏览器地址汇总
俄罗斯手机浏览器地址汇总

汇总俄罗斯Yandex手机浏览器官方网址入口,涵盖国际版与俄语版,适配移动端访问,一键直达搜索、地图、新闻等核心服务。

52

2026.01.09

漫蛙稳定版地址大全
漫蛙稳定版地址大全

漫蛙稳定版地址大全汇总最新可用入口,包含漫蛙manwa漫画防走失官网链接,确保用户随时畅读海量正版漫画资源,建议收藏备用,避免因域名变动无法访问。

183

2026.01.09

php学习网站大全
php学习网站大全

精选多个优质PHP入门学习网站,涵盖教程、实战与文档,适合零基础到进阶开发者,助你高效掌握PHP编程。

12

2026.01.09

php网站搭建教程大全
php网站搭建教程大全

本合集专为零基础用户打造,涵盖PHP网站搭建全流程,从环境配置到实战开发,免费、易懂、系统化,助你快速入门建站!

8

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

Kotlin 教程
Kotlin 教程

共23课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号