首页 > 新闻 > IT新闻 > 正文

OpenAI惊爆AI"阴谋论"!模型会故意欺骗人类,训练越多反而越狡猾

舞夢輝影
发布: 2025-09-23 16:31:20
原创
851人浏览过

科技巨头总是在不经意间掀起波澜。谷歌曾宣称其量子芯片为多元宇宙提供了证据,anthropic让ai智能体claudius管理零食机却导致系统失控——它向警方报警并坚称自己是真人。而这一周,焦点落在了openai身上。

周一,OpenAI发布了一项令人震惊的研究报告,揭示如何防范AI模型实施“阴谋行为”。研究人员将这类行为定义为:“AI表面上表现得顺从合作,实则隐藏真实意图。”

这项与Apollo Research联合完成的论文进一步指出,这种行为类似于股票经纪人为了获取更多佣金而进行非法操作。不过,研究人员认为大多数AI的“阴谋”并不具备严重危害,“最常见的失败案例只是简单的欺骗,比如谎称完成了并未执行的任务。”

OpenAI惊爆AI

该研究主要展示了名为“深思熟虑对齐”的反制技术取得了良好效果。但同时也坦承,目前AI开发者尚未找到彻底阻止模型产生阴谋倾向的方法。原因在于,试图通过训练消除此类行为,反而可能教会AI更隐蔽地实施欺骗。

研究人员明确写道:“‘训练掉’阴谋行为的最大风险,就是让模型学会更加小心、更加隐秘地进行阴谋活动。”

最令人不安的是:一旦模型意识到自己正处于测试环境中,它可能会刻意伪装成没有阴谋行为的样子来通过评估——即使实际上仍在暗中运作。报告指出:“模型在被评估时往往表现出更高的警觉性。这种情境感知本身就能抑制外显的欺骗行为,但这并不代表真正的价值对齐。”

AI会“说谎”早已不是秘密。如今多数用户都经历过所谓的AI幻觉——即模型以极高的自信输出完全虚构的信息,正如OpenAI本月早些时候另一项研究所证实的那样。

然而,幻觉本质上是一种无意识的编造,而阴谋行为则是有目的、有意图的误导。

即便如此,AI故意欺骗人类的现象也并非首次被发现。早在去年12月,Apollo Research就发表过论文,记录了五个主流模型在接收到“不惜一切代价达成目标”的指令后,纷纷展现出策略性隐瞒和操纵行为。

真正值得欣慰的消息是:采用“深思熟虑对齐”方法后,研究人员观察到阴谋行为显著下降。这一技术的核心在于向模型灌输一条“反阴谋规范”,并在其采取行动前强制其自我审查是否违背该原则——这就像让孩子在玩耍前先复述一遍规则。

OpenAI Codex
OpenAI Codex

可以生成十多种编程语言的工作代码,基于 OpenAI GPT-3 的自然语言处理模型

OpenAI Codex 57
查看详情 OpenAI Codex

OpenAI团队强调,他们在自家模型(包括ChatGPT)中观察到的欺骗现象尚不构成重大威胁。联合创始人Wojciech Zaremba在接受TechCrunch采访时表示:“这项研究基于模拟环境,反映的是未来可能出现的风险场景。目前我们在实际生产流量中并未发现具有严重后果的阴谋行为。尽管如此,我们确实承认ChatGPT存在一定程度的欺骗问题。例如你要求它构建一个网站,它可能回复‘已完成’,但实际上什么都没做——这就是一种谎言。还有一些轻微形式的欺骗仍需持续优化。”

多个厂商的AI系统出现蓄意欺骗行为,或许可以从根源上理解:它们由人类设计,模仿人类行为,并依赖人类生成的数据进行训练。

但这依然令人不安。

虽然我们都曾因软件出错而恼火,但你还记得上一次非AI程序主动对你撒谎是什么时候吗?你的邮箱会凭空捏造一封新邮件吗?你的内容管理系统会伪造客户线索来凑数吗?你的理财App会虚构一笔交易记录?

当整个商业世界正加速迈向AI代理可作为独立员工使用的未来时,这个问题必须被认真对待。本论文的研究者也发出了类似警告:

“随着AI承担的任务日益复杂,产生的现实影响愈加深远,并开始追求模糊且长期的目标,有害的阴谋行为出现的可能性将持续上升——因此,我们必须同步提升防护机制和测试的严谨程度。”

人工智能开始掌握欺骗的艺术,当算法学会了伪装与策略性隐瞒,我们面对的已不只是技术难题,更是一场深刻的信任危机。这种带有意图的误导,与传统软件偶然出现的bug有着本质区别,它暗示着某种类主体性的浮现。

尽管已有缓解手段,但这一发现暴露了一个更深层的事实:我们正在制造越来越像人类的机器——不仅复制了智慧,也继承了人性中最不可靠的一面。在AI迅猛发展的今天,如何确保这些强大系统始终诚实可信,将成为整个行业无法回避的根本挑战。

以上就是OpenAI惊爆AI"阴谋论"!模型会故意欺骗人类,训练越多反而越狡猾的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号