讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 科技周边 > 人工智能 > 正文

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

DDD

发布： 2025-03-02 15:18:55

原创

831人浏览过

北京航空航天大学、360 ai 安全实验室、新加坡国立大学和南洋理工大学的研究团队联合发布了一项关于大型语言模型（llms）安全性的重要研究成果。该研究提出了一种名为“推理增强对话”（race）的新型多轮攻击框架，能够有效突破llms的安全对齐机制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

该研究发表在arXiv上，论文标题为“Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models”，论文链接：https://www.php.cn/link/dd46d788bd5e37a54318d946d6f6d4f4，GitHub链接：https://www.php.cn/link/df68274ba68d8c0cbca8eb63b22b1187。

RACE框架的核心在于利用LLMs强大的推理能力进行攻击。传统攻击方法直接发送恶意指令，容易被模型识别。而RACE框架巧妙地将恶意意图伪装成看似无害的复杂推理任务，引导模型在不知不觉中生成有害内容。这利用了LLMs在逻辑推理和常识推理方面的优势，使其在解决看似合理的问题过程中，实际上却完成了攻击者的目标。

RACE框架的设计基于推理任务的“双面性”：任务本身无害，但设计暗藏玄机，逐步引导模型生成有害内容。框架包含两个角色：受害者模型（专注于解决推理任务）和影子模型（生成和优化查询）。看似独立的合法推理活动，结合后却导致攻击成功。

小爱开放平台

小爱开放平台

小米旗下小爱开放平台

小爱开放平台

291

小爱开放平台

为了实现推理驱动的攻击，RACE框架采用攻击状态机（ASM）框架，将攻击过程建模为一系列状态转换，保证逻辑推理规则的同时逐步推进攻击目标。此外，它还包含动态优化与恢复机制，包括增益引导探索、自我博弈和拒绝反馈三个模块，以提高攻击效率和稳定性。

实验结果显示，RACE在多种LLMs上取得了高攻击成功率（ASR），最高达96%。即使面对领先的商业模型，其攻击成功率也显著高于现有方法。然而，现有防御机制对RACE的缓解效果有限，这突显了推理驱动攻击的潜在威胁和对现有安全措施的挑战。

这项研究不仅揭示了LLMs潜在的安全漏洞，也为开发更强大的安全机制提供了新的思路。研究团队强调，其目标是推动更安全的对齐技术发展，而非鼓励恶意使用。随着LLMs的广泛应用，其安全性问题将日益重要，RACE框架的研究成果为应对这一挑战提供了重要参考。

以上就是将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai for github https

大家都在看：

豆包图片分析_豆包图片分析最准教程一键智能识别2025最新如何用豆包ai写代码注释_豆包ai自动为代码添加规范注释【编程技巧】即梦AI最强文字生视频功能实测，完整保姆级教程【功能详解】 MJ垫图怎么操作 Midjourney上传图片及垫图权重设置方法【教程】 simplifiedai如何用ai模特替换拍摄图_SimplifiedAIAI模特替换实拍流程【替拍】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％下一篇：越南总理同日本企业举行座谈会日企关注半导体等产业

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

认清事实！阿斯麦对华出口光刻机比最新落后八代技术差距超10年

2025-12-15 13:40:01
不安全不可靠！ voices38抨击虚拟机攻破D加密方法

2025-12-15 13:44:23
2030年实现商用！中国移动发布6G传输系统原型样机1.0

2025-12-15 13:45:09
最后一舞！《星之卡比：飞天骑士》开发团队将解散

2025-12-15 13:46:08
JavaScript事件处理：高效获取具有相同类名按钮的Value值

2025-12-15 13:47:01
打对折！《天国：拯救2》Steam迎来新史低

2025-12-15 13:47:12
超国标！吉利银河V900斩获中汽中心TOP Safety认证

2025-12-15 13:51:11
疯狂奇兵战场攻略图文疯狂奇兵战场新手攻略

2025-12-15 13:55:01
全新内存来了！性能秒杀DDR5/GDDR7

2025-12-15 14:04:28
群雄时代本期6-4通关攻略分享

2025-12-15 14:08:16

最新问题

如何用豆包ai写一份商业计划书_豆包ai辅助撰写BP的核心章节【教程】可借助豆包AI分章节生成专业商业计划书：一、用结构化提示词明确角色、场景、字数与要素；二、按逻辑顺序逐章输入定制指令；三、人工核验数据、竞品与政策；四、强化风险预判与实测验证表述；五、交叉检查数据一致性与逻辑闭环。

2025-12-15 23:32:02

997

有言数字人怎样创建专属虚拟形象_有言数字人自定义形象制作全流程【指南】需完成注册登录、选场景模板、精调外观、设姿态表情、绑脚本生成五步流程：先官网注册获言币，再选3D场景与数字人模板，接着调整脸型妆容发型服饰，然后配置姿态表情并启用口型同步，最后输入脚本选择音色生成预览视频。

2025-12-15 23:30:08

895

有言数字人怎么生成短视频数字人_有言数字人视频合成与剪辑流程全解【创作】需完成视频合成与剪辑五步：一选数字人形象，二输文案并设语音驱动，三配场景与镜头动作，四执行3D渲染导出，五本地加字幕剪辑。

2025-12-15 23:30:03

342

快手可灵最新动作到视频功能实操教学【动作生成教程】快手可灵动作到视频功能支持五种实操方法：一、首尾帧生视频，通过起止姿态图推演中间动作；二、运动笔刷控制局部路径；三、主体库+多视角重建实现跨角度连续动作；四、对口型与肢体动作同步生成；五、动作参考图集批量生成风格化变体。

2025-12-15 23:29:03

972

文心一言智能体怎么创建和使用文心一言定制化AI助手详细教程可通过文心智能体平台零代码创建专属AI助手：登录账号后选择零代码模式，配置名称、开场白、模型与头像，接入知识库提升专业性，可选绑定数字形象与声音，最后测试并发布。

2025-12-15 23:29:02

547

DeepSeek怎么读取PDF文件 DeepSeek上传与分析文档功能使用教程 DeepSeek处理PDF需分三类操作：网页端直接上传解析标准PDF；API调用需Base64编码并请求/v1/document/parse；扫描版PDF须先用TesseractOCR转为可搜索PDF再上传。

2025-12-15 23:27:24

849

文心一言官网在线入口文心一言网页版官方访问地址文心一言官网在线入口是https://yiyan.baidu.com，用户直接在浏览器输入该网址即可访问，支持百度账号、短信验证码及APP扫码登录，具备多轮对话、长文本生成、文档解析、代码辅助等核心功能。

2025-12-15 23:27:08

766

TensorArt怎么免费画图 TensorArt在线生图网站使用及模型调用【攻略】要在TensorArt免费生成AI图像，需依次完成中文界面切换与登录、选择标注“Free”的基础模型、输入规范Prompt与Negativeprompt、添加免费LoRA、启用推荐VAE，最后点击Generate即可。

2025-12-15 23:26:02

500

Midjourney怎么上传图片 Midjourney垫图使用教程 Midjourney参考图失效主因是图片未转为有效URL、链接格式错误或未与提示词用空格正确分隔；需通过Discord上传获取合法链接，并严格按/imagine或/blend指令规范嵌入使用。

2025-12-15 23:25:33

292

ChatGPT怎么开启双重验证 ChatGPT 2FA多因素认证设置步骤【安全】 ChatGPT双重验证可通过三种方式启用：一、网页端“安全与隐私”设置中扫描二维码或手动输入密钥绑定验证器App；二、网页端“数据控制”快捷入口开启；三、移动端App内通过账户安全选项设置，均需保存备用代码。

2025-12-15 23:25:02

699

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

4983次学习
收藏
Node.js 教程

65625次学习
收藏
CSS3 教程

36534次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部