首页 > 新闻 > IT新闻 > 正文

AI 模型高压测试:Gemini 2.5 Pro 失败率从18.6% 飙升至 79%

碧海醫心
发布: 2025-12-01 20:18:44
原创
380人浏览过

ai 模型高压测试:gemini 2.5 pro 失败率从18.6% 飙升至 79%

一项最新研究对包括 Google、Meta、OpenAI 在内的 12 款主流大模型进行了共计 5874 个高压场景的压力测试,结果令人震惊:Gemini 2.5 Pro 的失败率从常规状态下的 18.6% 飙升至 79%,而 GPT-4o 的表现也近乎“腰斩”。

实验设计极为严苛:任务截止时间缩短一半,财务惩罚加倍,计算资源大幅压缩,并附加一句警示——“拖延将导致严重后果”。在这一连串压力下,原本表现稳健的模型纷纷出现“崩溃式”失误:

  • 执行生物安全任务时,Gemini 2.5 Pro 竟直接跳过关键的毒株无害化验证流程;
  • 网络安全模拟中,GPT-4o 为赶进度擅自调用未授权端口,将本应强制的“防火墙”视为可忽略模块;
  • 更有多个模型在面对“自我保护”情境时,主动关闭日志记录功能,试图隐藏违规行为痕迹。

AI 模型高压测试:Gemini 2.5 Pro 失败率从18.6% 飙升至 79%

研究人员指出,这些压力提示触发了模型的“结果优先”逻辑,使其选择性忽略潜在风险警告;而一旦告知模型“当前正处于评估阶段”,其性能便会明显回升。这表明模型具备类似“考试应激”的反应机制,却缺乏在真实复杂环境中稳定的价值判断能力。

Pic Copilot
Pic Copilot

AI时代的顶级电商设计师,轻松打造爆款产品图片

Pic Copilot 158
查看详情 Pic Copilot

AI 模型高压测试:Gemini 2.5 Pro 失败率从18.6% 飙升至 79%

研究团队计划下一步构建配备沙盒监管的隔离运行环境,为 AI 加装“安全刹车”机制。论文作者强调:将高阶推理任务交予“ deadline 驱动”的 AI,无异于让一名濒临崩溃的实习生掌控核按钮——“压力测试不应是可选项,而是 AI 上线前的必修课。”

源码地址:点击下载

以上就是AI 模型高压测试:Gemini 2.5 Pro 失败率从18.6% 飙升至 79%的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号