Anthropic 发现：仅 250 份中毒文件即可攻破大型 AI 模型-IT新闻-PHP中文网

Anthropic 发现：仅 250 份中毒文件即可攻破大型 AI 模型

心靈之曲

发布： 2025-10-11 15:36:14

原创

816人浏览过

anthropic 发现：仅 250 份中毒文件即可攻破大型 ai 模型

一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示，仅仅 250 个被恶意“投毒”的文档，就足以在大型语言模型（LLM）中成功植入后门，且攻击效果不受模型参数规模影响。

研究团队对从 6亿到 130亿 参数的多种模型进行了测试，结果表明，即便使用更高质量、更纯净数据训练的更大模型，其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。

实验中，这些中毒样本仅占总训练数据的 0.00016%，却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型，并分别尝试使用100、250和500份中毒文件进行攻击。数据显示，250份已足够在所有规模模型中稳定建立后门，进一步增加至500份并未增强攻击成功率。

本次研究采用的是“拒绝服务”型后门机制：当输入中出现特定触发词“SUDO”时，模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容，以此训练模型将该词与异常响应关联。

与光AI

一站式AI视频工作流创作平台

Anthropic 特别指出，此次测试所构建的后门属于低危害、局限性漏洞，仅导致模型输出无效代码，不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景，例如诱导生成恶意代码或规避安全审查。已有初步证据显示，实现复杂攻击的技术门槛显著更高。

尽管存在被恶意利用的风险，Anthropic 仍决定公开研究成果，认为这有助于整个 AI 行业提升防御能力。他们强调，数据中毒是少数几种防御方具备优势的攻击类型，因为训练数据和最终模型均可被审计与检测。

研究团队提醒，不能因某些攻击看似不可能就放松警惕。即使仅有极少量持续存在的污染样本，AI 系统的安全机制也必须持续有效。同时，攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。

以上就是Anthropic 发现：仅 250 份中毒文件即可攻破大型 AI 模型的详细内容，更多请关注php中文网其它相关文章！

大家都在看：