首页 > 新闻 > IT新闻 > 正文

智源发布 Emu3.5 多模态世界大模型

心靈之曲
发布: 2025-10-30 18:59:10
原创
440人浏览过

北京智源人工智能研究院近日正式推出其最新一代多模态世界模型——emu3.5,首次将自回归式的“下一状态预测”(next-state prediction, nsp)机制应用于多模态序列建模中,标志着智能系统在跨模态理解与生成方面迈出了关键一步。

智源发布 Emu3.5 多模态世界大模型

Emu3.5的核心创新在于构建了一个统一的NSP框架。该模型将文本、图像、动作指令等不同模态的信息视为一个连续的状态序列,通过预测“下一个状态”来驱动整个推理过程,实现端到端的智能决策。这一机制赋予模型不仅理解当前情境的能力,更具备预判后续变化并自主规划最优行为路径的潜力。

举例来说,当用户发出指令:“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5能够准确识别图像中的对象及其空间关系,随后分步执行移动操作和色彩调整,确保每一阶段的输出都符合现实物理规律与视觉连贯性。

实际测试表明,Emu3.5在多个维度展现出卓越表现:

可图大模型
可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型32
查看详情 可图大模型
  • 文图协同生成:可根据高度复杂的语义描述(如“赛博朋克风格的雨夜街道,霓虹灯光映照在湿漉漉的路面上”)生成细节丰富、风格精准的图像;
  • 智能图像编辑:支持自然语言驱动的语义级修改(例如“将人物服装改为复古西装”),无需手动标注或选区操作;
  • 时空动态推理:可对视频帧序列进行连贯编辑,比如“让正在奔跑的角色突然停下并转身”,保持时间上的逻辑一致性。

这些能力使得Emu3.5在机器人控制、虚拟助手、智能内容创作等需要“感知—决策—执行”闭环的应用场景中具有广阔前景。

与以往仅依赖特征对齐的传统多模态模型不同,Emu3.5实现了根本性突破:它将文本、视觉、动作等各类信息统一编码为可预测的状态流,真正达成跨模态的无缝切换与联合推理。研究人员可借此高效处理复杂异构数据,而普通用户也能仅凭自然语言完成原本需专业工具才能实现的创意任务。

据智源方面透露,Emu3.5将优先落地于教育领域(如自动化智能课件生成)、医疗健康(多模态电子病历分析)以及数字娱乐(AI辅助导演系统)等方向。同时,团队将持续开源部分模型能力,致力于推动全球多模态人工智能生态的发展与普及。

以上就是智源发布 Emu3.5 多模态世界大模型的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号