讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

首页 > 头条 > 正文

智源发布Emu3.5大模型：以“下一状态预测”重构多模态智能，具身操作能力惊艳业界

舞姬之光

发布： 2025-10-30 16:23:18

原创

1055人浏览过

当大模型不再只是“看图说话”或“文生图”，而是能像人类一样在复杂环境中理解、规划并执行跨模态操作，多模态ai正迎来质的飞跃。10月30日，北京智源人工智能研究院正式发布其新一代多模态世界模型——emu3.5，首次将自回归式“下一状态预测”（next-state prediction， nsp）引入多模态序列建模，标志着ai从“感知理解”迈向“智能操作”的关键一步。

NSP架构:让AI学会“预测世界如何变化”

Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列，通过预测“下一个状态”来实现端到端的智能推理。这意味着，Emu3.5不仅能理解当前场景，还能预判操作后的结果，并据此规划最优动作路径。

智源发布Emu3.5大模型：以“下一状态预测”重构多模态智能，具身操作能力惊艳业界 - php中文网

例如，用户输入“把这张照片中的咖啡杯移到桌子右边，并调亮整体色调”，Emu3.5不仅能精准识别对象与背景，还能分步执行移动、光照调整等复合操作，确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显:跨场景操作能力全面升级

在实测中，Emu3.5展现出强大的跨模态泛化与具身操作能力:

文图协同生成:根据复杂描述（如“赛博朋克风格的雨夜街道，霓虹灯反射在积水路面”）生成高细节图像;

智能图像编辑:支持语义级修改（如“更换人物服装风格为复古西装”），无需手动选区;

Facetune

Facetune

一款在线照片和视频编辑工具，允许用户创建AI头像

Facetune

109

Facetune

时空动态推理:可对视频帧序列进行连贯编辑，如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

多模态融合新范式:打破信息孤岛

不同于早期多模态模型仅做特征对齐，Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流，实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据，普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示，Emu3.5将率先应用于教育（智能课件生成）、医疗(多模态病历分析)、娱乐(AI导演)等领域，并持续开源部分能力，推动多模态生态发展。

结语:从“理解世界”到“操作世界”

Emu3.5的发布，不仅是技术参数的升级，更是AI角色定位的转变——从被动响应的“工具”，进化为主动规划的“协作者”。当模型开始预测“下一步会发生什么”，它便真正踏上了通往通用智能的道路。而智源，正以NSP架构为支点，撬动多模态AI的下一个爆发点。

相关标签：

编码人工智能工具 ai 大模型 red 架构对象人工智能重构

大家都在看：

使用 PHP 连接到 MySQL 金三银四找工作，我来帮你改简历！ 20多年后，我仍爱着PHP和JavaScript！ Google Bard 开放申请了 PHP真是“命硬”！稳居前十！

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：OpenAI 与 AMD 达成重磅合作，开启 AI 新纪元下一篇：xAI升级Grok Imagine iOS版:新增视频生成与提示重混

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

抖音商城真的能赚钱吗抖音商城收益方式与平台政策说明

2025-12-06 20:40:02
兽语解密网页版怎么用_兽语解密网页版的含义与使用流程

2025-12-07 02:39:26
漫蛙漫画下载_漫蛙漫画下载正版app安卓最新版本免费安装

2025-12-07 07:37:15
拼多多仅退款教学拼多多退款申请操作全流程指南

2025-12-07 17:06:31
如果在 Windows 11 上无法点击任何内容该怎么办

2025-12-07 22:37:02
yandex邮箱安卓_Yandex邮箱官网入口及使用说明

2025-12-07 22:59:12
哔哩哔哩官网在线观看_哔哩哔哩官网在线观看高清视频无卡顿直达

2025-12-08 07:11:31
阿里图标库下载_阿里图标库下载多格式批量获取更方便

2025-12-08 09:22:01
sf轻小说官网免费_sf轻小说官网免费章节开放阅读更自在

2025-12-08 10:17:02
SQL数据库升级回滚流程_SQL结构变更安全策略

2025-12-08 17:32:02

最新问题

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍首次实现多智能体“群体强化”，PettingLLMs框架通过构建共享上下文组解决GRPO在多智能体中的公平性问题，支持多LLM协同训练。

2025-11-10 09:56:42

821

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了 Kimi K2 Thinking是迄今最大最好的开源模型，总参数达1万亿，激活参数320亿，支持256K上下文，在HLE等基准测试中超越GPT-5和Claude 4.5，具备200-300轮工具调用与持续推理能力，已在官网上线并即将推出完整智能体模式。

2025-11-10 09:44:01

738

谷歌 CEO 皮查伊确认：下一代 AI 模型 Gemini 3 今年发布谷歌CEO皮查伊确认Gemini 3将于2025年发布，该模型将强化智能代理能力以处理复杂多模态任务，并进一步缩小与GPT-5的差距，同时谷歌云AI收入同比增长超200%，TPU算力需求激增。

2025-11-03 11:08:27

851

阿里通义千问能力最强语言模型，Qwen3-Max 已在官网上线深度思考功能 Qwen3-Max已上线深度思考模式，参数超万亿、训练数据达36T tokens，9月24日发布，在AIME 25等高难度推理测试中准确率达100%，代码与智能体能力显著提升。

2025-11-03 11:06:21

783

xAI升级Grok Imagine iOS版:新增视频生成与提示重混 Grok Imagine将推iOS视频生成功能，支持文本/图像转高清动态视频，基于Aurora/Grok模型，含一键超分、重混提示与界面优化，免费用户享基础功能，高级功能需SuperGrok订阅。

2025-10-30 16:23:18

719

智源发布Emu3.5大模型：以“下一状态预测”重构多模态智能，具身操作能力惊艳业界 Emu3.5发布，首次引入自回归式下一状态预测（NSP）架构，将文本、图像、动作等多模态输入统一为连续状态序列，实现从感知理解到智能操作的跨越；模型具备文图协同生成、语义级图像编辑、时空动态推理能力，可在机器人控制、虚拟助手等场景中完成“感知-决策-执行”闭环；通过统一编码多模态数据流，打破信息孤岛，支持跨模态自由切换与协同推理；该模型将应用于教育、医疗、娱乐等领域，并持续开源推动生态发展，标志着AI由“理解世界”迈向“操作世界”的关键一步。

2025-10-30 16:23:18

1055

OpenAI 与 AMD 达成重磅合作，开启 AI 新纪元 OpenAI与AMD达成数十亿美元合作，AMD将为其提供六千兆瓦计算能力，2026年下半年部署首批一千兆瓦MI450GPU，OpenAI获一亿六千万股认购权，此举推动AMD股价上涨超34%，显示OpenAI正多元化布局算力供应链以降低对Nvidia等单一依赖，同时增强AMD在AI芯片领域竞争力。

2025-10-27 10:22:16

1152

研究揭示大量 “垃圾” 数据影响大语言模型推理能力大语言模型持续接触无意义在线内容会导致性能显著下降，研究显示其推理能力、自信心和安全性均受损。研究人员提出“LLM脑衰退假说”，通过两种方式定义垃圾数据：基于互动量（M1）和基于内容质量（M2）。实验使用Llama3-8B-Instruct和Qwen系列模型，训练中掺入不同比例垃圾数据。结果表明，随着垃圾数据增加，模型在ARC挑战基准测试中准确率从74.9%降至57.2%，长文本理解任务中从84.4%降至52.3%。M1定义的垃圾数据影响更严重，导致更多“思维跳跃”错误，超70%错误无推理过程，

2025-10-27 10:21:45

503

PHP编程实现人工智能应用：从基础到进阶的完整指南在数字化与智能化时代，人工智能（AI）已经成为各行各业不可或缺的技术手段。从简单的智能问答到复杂的图像识别，AI的应用场景日益广泛。然而，对于许多开发者来说，如何将AI技术融入到自己的项目中，尤其是使用PHP这种广泛使用的编程语言，仍然是一个挑战。本文将为您提供一份从基础到进阶的完整指南，帮助您在PHP编程中实现人工智能应用。

2025-10-09 09:41:59

10860

什么是DeepSeek-V3.2-Exp DeepSeek-V3.2-Exp是DeepSeek AI于2025年9月29日发布的实验性大语言模型，标志着该公司在AI架构创新方面的重要里程碑。作为V3.1-Terminus的升级版本，V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力（DSA）机制。

2025-10-09 09:41:08

1375

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Rust 教程

32875次学习
收藏
Git 教程

18130次学习
收藏
Kotlin 教程

16261次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部