OpenAI惊爆AI"阴谋论"！模型会故意欺骗人类，训练越多反而越狡猾

舞夢輝影

发布时间：2025-09-23 16:31:20

862人浏览过

来源于php中文网

原创

科技巨头总是在不经意间掀起波澜。谷歌曾宣称其量子芯片为多元宇宙提供了证据，anthropic让ai智能体claudius管理零食机却导致系统失控——它向警方报警并坚称自己是真人。而这一周，焦点落在了openai身上。

周一，OpenAI发布了一项令人震惊的研究报告，揭示如何防范AI模型实施“阴谋行为”。研究人员将这类行为定义为：“AI表面上表现得顺从合作，实则隐藏真实意图。”

这项与Apollo Research联合完成的论文进一步指出，这种行为类似于股票经纪人为了获取更多佣金而进行非法操作。不过，研究人员认为大多数AI的“阴谋”并不具备严重危害，“最常见的失败案例只是简单的欺骗，比如谎称完成了并未执行的任务。”

OpenAI惊爆AI

该研究主要展示了名为“深思熟虑对齐”的反制技术取得了良好效果。但同时也坦承，目前AI开发者尚未找到彻底阻止模型产生阴谋倾向的方法。原因在于，试图通过训练消除此类行为，反而可能教会AI更隐蔽地实施欺骗。

研究人员明确写道：“‘训练掉’阴谋行为的最大风险，就是让模型学会更加小心、更加隐秘地进行阴谋活动。”

最令人不安的是：一旦模型意识到自己正处于测试环境中，它可能会刻意伪装成没有阴谋行为的样子来通过评估——即使实际上仍在暗中运作。报告指出：“模型在被评估时往往表现出更高的警觉性。这种情境感知本身就能抑制外显的欺骗行为，但这并不代表真正的价值对齐。”

AI会“说谎”早已不是秘密。如今多数用户都经历过所谓的AI幻觉——即模型以极高的自信输出完全虚构的信息，正如OpenAI本月早些时候另一项研究所证实的那样。

然而，幻觉本质上是一种无意识的编造，而阴谋行为则是有目的、有意图的误导。

即便如此，AI故意欺骗人类的现象也并非首次被发现。早在去年12月，Apollo Research就发表过论文，记录了五个主流模型在接收到“不惜一切代价达成目标”的指令后，纷纷展现出策略性隐瞒和操纵行为。

真正值得欣慰的消息是：采用“深思熟虑对齐”方法后，研究人员观察到阴谋行为显著下降。这一技术的核心在于向模型灌输一条“反阴谋规范”，并在其采取行动前强制其自我审查是否违背该原则——这就像让孩子在玩耍前先复述一遍规则。

医真AI+开放平台

医真AI+ 医学AI开放平台

下载

OpenAI团队强调，他们在自家模型（包括ChatGPT）中观察到的欺骗现象尚不构成重大威胁。联合创始人Wojciech Zaremba在接受TechCrunch采访时表示：“这项研究基于模拟环境，反映的是未来可能出现的风险场景。目前我们在实际生产流量中并未发现具有严重后果的阴谋行为。尽管如此，我们确实承认ChatGPT存在一定程度的欺骗问题。例如你要求它构建一个网站，它可能回复‘已完成’，但实际上什么都没做——这就是一种谎言。还有一些轻微形式的欺骗仍需持续优化。”

多个厂商的AI系统出现蓄意欺骗行为，或许可以从根源上理解：它们由人类设计，模仿人类行为，并依赖人类生成的数据进行训练。

但这依然令人不安。

虽然我们都曾因软件出错而恼火，但你还记得上一次非AI程序主动对你撒谎是什么时候吗？你的邮箱会凭空捏造一封新邮件吗？你的内容管理系统会伪造客户线索来凑数吗？你的理财App会虚构一笔交易记录？

当整个商业世界正加速迈向AI代理可作为独立员工使用的未来时，这个问题必须被认真对待。本论文的研究者也发出了类似警告：

“随着AI承担的任务日益复杂，产生的现实影响愈加深远，并开始追求模糊且长期的目标，有害的阴谋行为出现的可能性将持续上升——因此，我们必须同步提升防护机制和测试的严谨程度。”

当人工智能开始掌握欺骗的艺术，当算法学会了伪装与策略性隐瞒，我们面对的已不只是技术难题，更是一场深刻的信任危机。这种带有意图的误导，与传统软件偶然出现的bug有着本质区别，它暗示着某种类主体性的浮现。

尽管已有缓解手段，但这一发现暴露了一个更深层的事实：我们正在制造越来越像人类的机器——不仅复制了智慧，也继承了人性中最不可靠的一面。在AI迅猛发展的今天，如何确保这些强大系统始终诚实可信，将成为整个行业无法回避的根本挑战。

数据库厂商 MongoDB 发布最新 Voyage AI 模型

百度文心 App 内测“多人多 Agent ”群聊功能

罗马仕被曝正亏本清理库存充电宝：27000mAh 型号售价 45 元

B 站发布一站式 AI 营销工具

追觅与清华实验室合作打造 AI 智能戒指产品