总结
豆包 AI 助手文章总结

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

蓮花仙者
发布: 2025-05-06 18:54:11
原创
890人浏览过

真机数据白采了?银河通用具身vla大模型已充分泛化,预训练基于仿真合成大数据! 新智元报道 编辑:编辑部

【新智元导读】今日,银河通用机器人推出了端到端具身抓取基础大模型「GraspVLA」。这是全球首个完全依赖仿真合成大数据预训练的具身大模型,相较于OpenVLA、π0、RT-2、RDT等模型,展现了更强的泛化能力和在真实环境中的应用潜力。近期,英伟达CEO黄仁勋在CES上的演讲引发了科技界的热议。

他首先展示了搭载Blackwell新架构的RTX 5090,然后分享了英伟达对人形机器人发展的期望,并以令人难忘的画面结束——

「银河通用的独特轮式具身大模型机器人Galbot G1缓缓托起RTX 5090。」

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!发布会后,黄仁勋亲自前往银河通用的展区,与Galbot机器人进行互动。

瞬间,数字智能与物理智能的结合、AI基础设施与AI模型及硬件的协同发展、科技巨头与超级创投的合作,激发了前所未有的科技活力。

全球目光聚焦于此,这位「AI教父」为何如此执着?为何唯独这家公司获得了万亿巨头的青睐?

具身智能在当今的科技变革中扮演着核心角色,深刻影响着人类社会的发展。

对于具身智能来说,「数据瓶颈」是业界公认的最大挑战。有些团队认为具身智能和自动驾驶一样主要依赖真机数据,而有些团队则认为需要采用大规模视频数据学习的策略,全球的研究团队对此观点不一。

迄今为止,国内外已有多个研发团队发布了百万级的真机数据集,但关于真机数据应采集到何种规模、达到何种多样性、以及机器人硬件迭代后数据如何跟进等问题尚未有明确答案。

今天,银河通用与北京大学、北京智源人工智能研究院(BAAI)、香港大学的研究人员共同发布了全球首个端到端具身抓取基础大模型GraspVLA。

作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现了比OpenVLA、π0、RT-2、RDT等模型更强的泛化能力和在真实场景中的应用潜力。

与GraspVLA一同发布的,还有GraspVLA团队总结的具身基础模型七大泛化「金标准」,按照Vision、Language、Action进行分层,这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。

在之前发布的模型中,RDT初步展示了背景和类内物体泛化的能力,OpenVLA、π0、GR-2等进一步展示了干扰物、平面位置泛化的能力。

如今,GraspVLA率先实现了多种能力的泛化,开创了以仿真合成大数据为核心的具身大模型发展新范式。

VLA预训练能否泛化?GraspVLA团队给出了七大金标准。

GraspVLA团队表示,尽管近年来具身VLA大模型在泛化性上取得了一定进展,但迟迟未有产品落地,原因在于从实验室到真实工作场景,模型难以通过各种环境因素动态变化的考验。团队认为不仅要关注任务能否被成功完成,更需关注任务在什么条件下可以成功完成。

银河通用的研发团队向我们展示了对GraspVLA模型以下泛化能力的全面评测:

  1. 光照泛化在银河通用展示的GraspVLA大模型工作中,我们看到在明亮、极暗甚至剧烈变化的光照条件下,模型都能精准执行抓取任务:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(2倍速)

在更极端的情况下,团队让模型经历从明到暗,甚至是几近完全黑暗的情况下对目标物体进行移动,在实时观测到目标物体移动后,大模型驱动机器人立即朝移动后的位置进行抓取,展现了GraspVLA大模型在极端光照条件下的强大适应能力与执行力。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(2倍速)

  1. 背景泛化银河通用还展示了GraspVLA大模型在不同背景环境下的适应性,包括红色桌布、星空图案等多种场景。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(桌面泛化,3倍速)

银河通用发布的视频中还指出,GraspVLA采用双视角作为输入,我们看到的视频画面对应机器人正前方摄像头视角。

当背景快速动态变化时,模型仍稳定执行任务,丝毫不受干扰,展现了GraspVLA大模型在动态环境中对变化背景的强大适应能力。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(背景墙泛化,3倍速)

  1. 平面位置泛化银河通用团队展示了GraspVLA在平面上抓取任意位置目标物体的能力,不论是在一堆物体中间,还是餐盘上,GraspVLA都能轻松抓取。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(3倍速)

  1. 高度泛化在展示模型对高度的泛化能力时,银河通用团队让GraspVLA抓取摆放在不同高度的球,GraspVLA稳稳抓取:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(3倍速)

  1. 动态干扰泛化在GraspVLA工作时,往工作空间随意丢物体进行干扰,即使撞到目标物体,也不影响它成功完成指令。

我们可以看到,在左上角视频中,抓取目标在桌面上剧烈旋转时,GraspVLA也能定位到;在左下角视频中,目标物体胡桃夹子被撞走了至少三次,每次GraspVLA都明显立即进行了调整。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!6. 闭环动作输出,不同姿态不同抓法进行抓取时,即使目标物体被人为移动位置、甚至从立着改为倒下,GraspVLA都能实时调整动作完成抓取:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!7. 零样本Sim2Real抓取新物体机器人领域公认使用仿真合成数据训练模型具有Sim2Real Gap问题,然而,银河通用强调,GraspVLA进行上述测试的所有物体、环境均未参与任何训练。

此外,即使是从未出现在合成动作数据中的类别,仅经过互联网图文数据联合预训练,GraspVLA也能准确识别并把抓取能力泛化迁移:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!快速对齐产品新需求?GraspVLA展现基座大模型属性

经过以上七大金标准的检验,研究团队充分论证了GraspVLA作为全球首个端到端抓取大模型的零样本泛化能力。

众所周知,基座大模型的另一个重要属性是,能够通过少样本迅速对齐用户新需求。

研究团队表示,机器人模型落地过程中,不同场景会有不同的特殊需求,因此借助商超、工厂、家庭三个场景中的典型情形,进一步检验GraspVLA的快速适应及迁移能力。

  1. 迅速服从指定规范并「举一反三」团队以商超场景中按序取出箱中商品为例:虽然GraspVLA可以轻松抓起指定商品,但由于工作区有多个相同商品,模型不知道应该先取哪个:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(未按照顺序抓取指定商品,2倍速)

为此,研究团队采集了少量(少于一个人遥操一天)的按序抓取数据,GraspVLA就轻松理解了「顺序」这一要求,充分展现基座模型的快速学习能力:

研究团队进一步检验了这一能力对后训练分布外情形(OOD)的泛化性。

尽管只采集了怡宝的数据,但GraspVLA将按序抓取这种行为自动迁移到其他品牌的饮品(东方树叶、农夫山泉),按摆放顺序分别抓取了瓶身颜色不同、瓶盖大小不一的同类商品,充分验证了GraspVLA作为基础大模型的泛化能力。

  1. 迅速掌握新词汇,拓展新类别具身大模型落地工业场景时,一大挑战是认识这些行业专用的特殊零件,即,根据这些罕见词汇找到对应物体。

银河通用的研发团队发现,尽管预训练的模型可以轻松抓起任意零件,但是常常会「抓错」,比如,指定「抓取车窗控制器」,模型却抓起了接线座:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!团队进一步采集了少量轨迹进行快速后训练,让GraspVLA快速掌握了诸如接线座(wiring base)、三角板(triangular panel)、黑色软管(black hose)等特殊工业名词。

再结合其预训练期间对于物体平面位置摆放的泛化性,模型迅速学会了从任意摆放的密集场景中精准找出对应零件:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(3倍速)

  1. 迅速对齐人类偏好家庭场景中,用户对机器人的行为会有特定的偏好,比如尽管经过预训练的GraspVLA可以根据指令抓起放着牙膏牙刷的杯子,但会碰到内壁。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!同样通过采集少量带用户偏好的抓取轨迹,GraspVLA就「听懂了」抓取洗漱杯时,不能接触杯子内壁:

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!(对齐后 3倍速)

从上面的三种典型应用场景来看,GraspVLA不仅「能力强」,还「懂人话」。

在新的场景中,直接部署预训练的GraspVLA,就能轻松实现物体抓取。而针对用户的新需求,也仅需少量数据即可让它快速调整。凭借这一能力,无论需要在何时何地部署,仅需人类简单的「指导」,机器人即可迅速「上岗干活」。

这充分展现了银河通用团队提出的「大规模合成数据预训练」这种范式在商业落地中的潜力。

合成大数据驱动的 VLA 预训练新范式

英伟达期望看到能够托举起未来世界的人形机器人,让这些机器人在各类复杂任务中能够自主执行,拥有泛化的能力。然而,这一宏伟目标在过去主流数据采集范式下面临着两大瓶颈。

瓶颈一:数据昂贵且稀缺。机器人技术的核心问题之一是大规模高质量数据的获取。现有的训练数据采集方式人工成本高、资金开销大、采集周期长。此外,目前机器人硬件还在快速迭代,即使在现有硬件上高成本采集大规模数据,也可能迅速过时、与最新硬件不匹配,形成数据短板与沉没成本。

瓶颈二:技能泛化性与通用性不足。受限于物理条件,真机数据采集往往无法覆盖所有可能的实际应用场景,导致训练出的模型难以泛化,因此目前的很多机器人只能在特定的环境条件和特定的物体下完成任务,缺乏对新环境的适应能力。

银河通用表示,GraspVLA能达到如今的惊艳效果,离不开团队多年研究合成仿真数据的经验和对使用合成仿真数据的坚持。

为了突破上述两大瓶颈,银河通用的团队开创性地研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线,并在NVIDIA Isaac平台的基础上,进一步提高数据的物理真实性和物理渲染的并行度。

这套数据生产管线在短短一周内就能生成全球规模最大的十亿级机器人操作数据集。不仅极大降低了数据生产的时间成本、人力成本、资金成本,还广泛提高了数据对各种场景的覆盖率。如此规模和质量的数据,是GraspVLA强大的抓取泛化能力的前提。

此次发布中,GraspVLA展现出的强大泛化与高效对齐能力引发我们深思:这一路线所展现出的全方位优越性,是否将一改业界对仿真合成路线的看法,开创合成大数据驱动的VLA预训练新范式?这是否意味着大规模仿真合成数据预训练将取代现有的高成本人工采集方案,带领具身大模型的发展进入新的时代?

银河通用还透露,联合研发团队在过去一年里也在导航VLA模型(NaVid系列模型)的研究上取得了重大突破,将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。

团队表示,他们后续将不断融合团队多年积累,推出全面融合抓放、关节类物体操作、柔性物体操作等各类技能的全能大模型,继续走以仿真合成数据为唯一预训练来源的道路,确保所有大模型能够以最小成本迅速进化,迈向具身智能领域的下一个高峰。

以上就是真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
豆包 AI 助手文章总结
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号