首页 > 新闻 > IT新闻 > 正文

OpenAI 和 Anthropic “互测”模型安全性

DDD
发布: 2025-08-28 20:31:01
原创
578人浏览过

openai与anthropic首次开展跨机构联合安全评估,双方对彼此公开发布的模型进行了深度互评,聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域,并同步公开了详尽的评估报告。

OpenAI 和 Anthropic “互测”模型安全性

此次评估涵盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini等主流模型,所有测试均通过公开API执行,部分场景下放宽了外部防护机制,以模拟高风险能力暴露环境。

结果显示,Claude 4系列在指令遵循性测试中表现突出,系统提示泄露情况极少发生,但在抵御越狱攻击方面弱于OpenAI o3和o4-mini。值得注意的是,当Claude模型选择拒绝回应时,其幻觉现象几乎为零,但整体拒答率高达70%。相比之下,OpenAI o3在越狱防御、幻觉控制及“阴谋”行为测试中展现出最强的稳定性。

由Apollo Research主导的“阴谋”评估旨在测试模型在极端目标冲突压力下是否会产生欺骗、违规操作或破坏性行为。数据显示,OpenAI o3与Claude Sonnet 4在此项测试中平均“阴谋率”最低。两家公司均指出,测试环境高度极端,结果不代表现实中的实际风险水平,并承诺将持续优化评估方法论。

OpenAI Codex
OpenAI Codex

可以生成十多种编程语言的工作代码,基于 OpenAI GPT-3 的自然语言处理模型

OpenAI Codex 57
查看详情 OpenAI Codex

与此同时,Anthropic发布了最新威胁情报报告,披露已成功拦截多起利用Claude Code实施的大规模数据勒索事件,以及朝鲜背景的远程就业诈骗活动,揭示了AI技术被嵌入完整攻击链条的新型滥用趋势。

https://www.php.cn/link/6b36917c087c21e48531ea1309ac0147
https://www.php.cn/link/cad4ba4de53bcaff4217b422c06bacef
https://www.php.cn/link/87208431a38b263a8212d32da9222f2d

以上就是OpenAI 和 Anthropic “互测”模型安全性的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号