0

0

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

看不見的法師

看不見的法師

发布时间:2025-07-13 14:00:18

|

775人浏览过

|

来源于laoyaoba

转载

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (world models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异 (即sim-to-real gap) ,导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。因此如何高效获取、生成和利用高质量的具身数据,已成为当前机器人学习领域的核心挑战之一。

近日,地平线、极佳科技与中国科学院自动化研究所等单位提出RoboTransfer,基于扩散模型的视频生成框架,可以用于扩充机器人策略模型的训练数据。得益于合成数据的多样性,下游策略模型能够在新场景下取得251%的显著提升,大幅提升策略模型的泛化性,为具身智能的通用性与泛化性奠定了坚实的基础。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

• 论文链接:

https://arxiv.org/pdf/2505.23171

• 项目主页:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿学习 (Imitation Learning) 已成为机器人操作领域的重要方法之一。通过让机器人“模仿”专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然而,这类方法通常依赖大量高质量的真实机器人演示数据,而数据采集过程成本高、周期长,严重制约了其扩展性和泛化能力。

为了解决上述问题,本项工作提出了RoboTransfer,一种基于扩散模型 (diffusion model) 的视频生成框架,旨在实现高质量的机器人操作场景数据合成。不同于传统的仿真方法或现有生成模型,RoboTransfer融合了多视角几何信息,并对场景中的关键组成成分(如背景、物体属性等)实现了显式控制。具体而言,RoboTransfer通过引入跨视角特征交互机制以及全局深度图与法向图作为条件输入,确保生成视频在多个视角下的几何一致性。此外,该框架支持细粒度的编辑控制,例如更换背景、替换目标物体等,从而能够灵活地生成多样化、结构合理的视觉数据。

实验结果表明,RoboTransfer能够生成具有高几何一致性和视觉质量的多视角视频序列。此外,使用RoboTransfer合成数据训练的机器人视觉策略模型,在标准测试任务中表现出显著提升的性能:在更换前景物体的场景下取得了33.3%的成功率相对提升,在更具挑战性的场景下(同时更换前景背景)更是达到了251%的显著提升。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

RoboTransfer的整体框图如下,为了在视频生成过程中保证多视角之间的一致性,RoboTransfer引入了多视角一致性建模机制,使得生成过程能够联合不同视角的信息进行推理,从而提升生成结果的空间连贯性与视觉合理性。

此外,在控制条件的设计方面,RoboTransfer通过将控制信号解耦为几何信息与外观(纹理)信息两个部分,实现了对生成内容的细粒度控制。具体来说,在几何控制方面,采用深度图 (depth map) 和表面法向图 (surface normal map) 等具有强结构约束的表示方式,来引导生成视频中物体的三维空间结构,确保在不同视角下生成内容的几何一致性。而在外观控制方面,模型利用参考背景图像和目标物体的参考图像作为输入条件,这些图像经过编码后能够有效保留原始场景的色彩、纹理以及上下文信息,从而在生成过程中维持物体外观的细节还原能力。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

在实验部分,RoboTransfer证明可以通过real-to-real,以及sim-to-real两种方式实现数据增广,并训练下游的策略模型提升其性能。

绘蛙-多图成片
绘蛙-多图成片

绘蛙新推出的AI图生视频工具

下载

real-to-real数据增广

基于真机采集的真实视频数据,可从中提取结构化信息作为控制条件,通过调整背景桌面与前景物体的控制参数,实现新场景数据的合成。如下图所示,左侧为真实采集的数据及其对应的结构化信息,右侧为合成结果,实验表明RoboTransfer能够灵活地实现背景桌布的替换。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

改变前景:下图所示第一行为真机采集数据,第二行为深度图,第三行为法向图,第四行为前景物体的控制条件,第五行为合成数据,第六行为背景桌布控制条件。以下实验结果表明RoboTransfer可以实现对前景物体外表编辑的功能,丰富生成数据的多样性,提升策略模型的训练质量。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

sim-to-real数据增广

RoboTransfer不仅可以改变真机数据的前景和背景,还可以实现对仿真数据的重新渲染。利用仿真数据中的结构化信息以及真实场景的物体和背景作为控制条件,RoboTransfer可以将仿真数据的转化为逼真的真实数据,极大地降低sim-to-real之间的gap,为通用机器人的训练提供了一个新的范式。以下是两个不同的仿真场景重新渲染的实验结果,左侧是叠碗,右侧是放置杯子,其中第一行为仿真采集数据,第二行为深度图,第三行为法向图,第四行为合成数据,第五行为背景参考图。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

对比实验结果

与其他SOTA方法的对比可以发现,RoboTransfer在时序一致性以及多视角之间的一致性上都要显著优于其他方法。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

定量实验的实验结果如下表所示,实验表明对于生成数据的前背景增广可以显著提升策略模型在新场景下的成功率,其中对于前背景完全改变的新场景,前背景的数据增广能够让策略模型获得251%的性能提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

表1:数据增广对于策略模型在不同setting下的提升

总体来说,该方法构建了数据处理流程,可以生成包含几何和外观控制条件的三元组数据,以训练基于扩散模型的机器人数据合成框架RoboTransfer。实验和评估结果显示,RoboTransfer能够生成具有多视角一致、几何一致的数据,并且可以根据参考图像修改前景和背景纹理。生成的数据用于训练机器人操作策略,从而显著提升了策略模型的泛化能力。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

74

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

28

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

59

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

35

2025.11.27

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

399

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

408

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

300

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

627

2024.09.10

PHP 表单处理与文件上传安全实战
PHP 表单处理与文件上传安全实战

本专题聚焦 PHP 在表单处理与文件上传场景中的实战与安全问题,系统讲解表单数据获取与校验、XSS 与 CSRF 防护、文件类型与大小限制、上传目录安全配置、恶意文件识别以及常见安全漏洞的防范策略。通过贴近真实业务的案例,帮助学习者掌握 安全、规范地处理用户输入与文件上传的完整开发流程。

5

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号