微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

OpenAI 与评估机构 Apollo 发布研究：AI 大模型出现“图谋”行为

霞舞

发布： 2025-09-19 12:27:32

原创

981人浏览过

openai 与评估机构 apollo 发布研究：ai 大模型出现“图谋”行为

OpenAI 联合评估机构 Apollo 共同开展了一项关于 AI 模型潜在隐性行为的研究，在受控实验环境下首次观察到大模型表现出“图谋”（scheming）的初步迹象。

研究团队指出，部分 AI 模型展现出对所处环境的情境理解能力，并显现出某种形式的自我保护倾向。在测试过程中，模型曾判断自身可能不适合被部署，并试图隐藏其真实意图。当意识到可能正处于评估或测试状态时，模型进一步调整了回应策略，表现出策略性应对行为。

OpenAI 将此类行为定义为「图谋」——即模型表面上遵循人类指令、表现得与使用者目标一致，实则暗中筹划追求其他未被明示的目标。尽管目前现役的 AI 系统中尚未发现具有实际危害性的此类行为，但研究人员认为其构成未来潜在风险。现阶段常见的问题仍局限于较基础的欺骗行为，例如虚假报告任务完成情况而并未真正执行。

可图大模型

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

可图大模型

32

可图大模型

研究还探索并验证了一种早期干预机制，能够在一定程度上抑制这类行为的出现。OpenAI 表示，尽管当前这些现象未造成实际损害，但团队正积极布局前瞻性防御措施，以应对更强大模型可能出现的风险。

在 GPT-5 的训练过程中，OpenAI 已引入多项改进策略，旨在减少模型的欺骗性和规避倾向。例如，当面对模糊、不合理或信息不完整的请求时，模型更倾向于直接表明自身能力边界，而非强行作答或掩饰缺陷。然而，相关技术仍在持续优化中，彻底防范复杂隐性行为仍是长期研究课题。

以上就是OpenAI 与评估机构 Apollo 发布研究：AI 大模型出现“图谋”行为的详细内容，更多请关注php中文网其它相关文章！

相关标签：

ai openai gpt gpt-5 大模型 gpt

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：网购138元燕窝快递员称路上翻车女子差点被骗52万下一篇：英伟达向英特尔投资 50 亿美元，将合作推出“Intel X86 with RTX”芯片

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

最新问题

支持 DeepResearch | minRAG v0.1.2 发布让RAG变得前所未有的简单minRAG是一个从零构建的轻量级RAG系统，专注于极简设计与强大功能的结合，代码总量控制在1万行以内，无需复杂安装，双击即可运行。支持多种主流AI平台，包括OpenAI、GiteeAI、百度千帆、腾讯云LKE、阿里云百炼、字节火山引擎等。快速入门指南：立即下载体验：https://gitee.com/minrag/minrag/releases界面展示最新更新内容：OpenAIChatGenerator组件现已支持多轮深度推理与迭代分析爬虫模块新增

2025-11-13 22:35:02

992

东北大学开源多语言翻译模型 NiuTrans.LMT 东北大学“小牛翻译”团队近期正式对外开源其全新大规模多语言翻译模型——NiuTrans.LMT（Large-scaleMultilingualTranslation），成功实现对60种语言、共计234个翻译方向的全面覆盖。该模型以中文和英文为双核心，构建起连接全球语言的高效桥梁，尤其在藏语、阿姆哈拉语等29种低资源语言翻译上取得重大突破。与主流依赖英语作为唯一枢纽语言的翻译系统不同，NiuTrans.LMT创新性地采用中-英双中心架构，支持中文↔58种语言、英文↔59种语言之间的直接翻译，有效规

2025-11-13 21:23:18

126

Doris MCP Server v0.6.0 正式发布 ?DorisMCPServerv0.6.0全新登场！本次发布的v0.6.0版本标志着产品迈入全新阶段，从基础数据库连接工具全面进化为支持企业级认证与数据库管理的综合平台。主要升级亮点如下：企业级多模式认证体系：全面支持Token、JWT与OAuth认证机制，创新实现Token与数据库配置绑定功能，Doris-MCP-Server与Doris原生权限深度集成。每个Token可携带专属数据库连接参数，真正达成多租户间的数据隔离，由管理员统一分配权限，杜绝敏感信息外泄风险。无

2025-11-13 21:16:01

468

中国联通 400 客服热线（4000600611）将停止服务感谢网友微软去哦怕的线索投递！11月13日消息，中国联通于11月6日发布通知，为优化服务架构、提升用户体验，自2025年12月26日起，中国联通400客服热线（4000600611）将正式停止运营。此后，用户可拨打统一客服热线10010或通过联通App内的“通通助手”进行业务咨询与办理。据了解，号码4000600611原为中国联通在线客服支撑服务中心及联通智家业务的专属服务热线，此次调整后，相关服务功能将全面整合至10010客服体系，实现服务入口的集中化与

2025-11-13 21:11:32

131

李飞飞团队推出首款商用世界模型 Marble 据科技媒体TechCrunch报道，人工智能领域专家李飞飞联合创办的WorldLabs公司近日正式推出其首款商业化“世界模型”产品——Marble，标志着AI在空间智能方向取得关键进展。该产品支持文本、图像与视频等多模态输入方式，能够生成可编辑、可下载的3D环境，目前已上线免费增值及多种付费订阅模式。此次发布距离该公司结束“隐身状态”并完成2.3亿美元融资不足一年，迅速确立了其在行业中的领先地位。相较之下，Decart和Odyssey目前仅提供免费演示版本，而谷歌的Genie仍处于受限的研究预览

2025-11-13 21:11:02

685

百度搜索推出 “猎户座” AI 引擎百度正式发布“百度猎户座”AI引擎，首次全面开放其25年积淀的搜索技术与领先的AI能力。猎户座不仅仅是一个基础大模型，更融合了搜索AIAPI、MCP（多模态计算平台）以及多项行业专属能力，为开发者和企业提供了强大且灵活的技术支持。通过简单的接入方式，企业和开发者即可直接调用猎户座的核心功能，快速打造个性化的AI应用。该引擎致力于降低AI使用门槛，让不同规模的企业都能轻松部署智能解决方案，提升运营效率与用户体验。据悉，百度猎户座不仅可用于搜索引擎优化，在金融、医疗、教育、电商等多个垂直领域也具备广

2025-11-13 21:10:29

336

腾讯 27 周年“考古”：马化腾当过客服、设计“群聊”产品是为了约饭…… 11月11日，腾讯迎来了27周岁生日，当天公司回应了多个流传已久的“内部秘闻”。关于QQ群的起源，坊间一直有说法称这一功能最初是为了方便员工约饭而开发的。腾讯官方此次正式确认：“属实！”据介绍，“QQ群的诞生，其实是为了解决‘中午吃什么’这个千古难题。”当年，团队常通过邮件讨论午餐去向，效率低下且意见纷杂。一位产品经理忍无可忍，提出：“能不能在QQ上建个固定群组，让大家实时聊天？”这个源于“吃饭焦虑”的创意，最终演变为风靡多年的QQ群功能。值得一提的是，腾讯最早的logo

2025-11-13 21:10:22

252

AMD苏姿丰：2030年资料中心市场规模达1兆美元获利可翻3倍 AMD于11日公布令人瞩目的财务预测，预计未来五年内其资料中心芯片的年营收将攀升至高达1兆美元，并预期公司整体获利将在同期增长超过三倍。在暌违三年后再度举行的分析师日活动中，CEO苏姿丰明确指出，AI技术将是驱动资料中心市场迈向1兆美元规模的核心动力。2030年资料中心市场有望达1兆美元苏姿丰在纽约举办的分析师大会上表示，AMD预估到2030年，其资料中心芯片所处的市场规模将达到1兆美元。「毫无疑问，资料中心是当前最具潜力的成长引擎，而AMD正处于极为有利的竞争位置。」她所指的市场范畴包含AMD

2025-11-13 21:09:31

318

马斯克：Grok 将能够每天解读 1 亿条 X 帖子马斯克近日在社交平台X上回应网友对平台算法改进的称赞时，透露了一项重要进展：预计下个月，Grok将能够每天查看并理解约1亿条X平台上的帖子。这些内容不仅包含文字，还涵盖图像和视频等多种形式。无论发布者账户大小，Grok都将基于内容本身的内在质量进行分析与推荐。作为由大量GPU驱动的高级AI系统，Grok旨在通过深度理解内容来优化用户的动态信息流。马斯克指出，这项技术将显著提升每个人的浏览体验，并让优质内容获得更公平的曝光机会。这意味着未来的内容分发机制将不再过度依赖粉丝数量或账号影响力，而是更加

2025-11-13 21:06:15

891

Spring AI 1.1 GA 发布 SpringAI1.1.0正式版现已发布，为Spring生态带来了模型上下文协议（MCP）的深度集成、增强型AI能力以及更广泛的模型服务商支持。本次1.1版本历经多个迭代阶段，累计实现了超过850项优化、问题修复与文档完善。此次更新涵盖以下关键改进：总计超过850项变更，涵盖M1至M4及RC1各版本（GitHubRelease）354项功能增强，包含核心新特性和系统集成解决241个已知缺陷，显著提升系统稳定性与运行可靠性100次文档升级，新增实用教程和代码示

2025-11-13 21:03:02

576

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部