新智元报道 编辑:编辑部
【新智元导读】今日,银河通用机器人推出了端到端具身抓取基础大模型「GraspVLA」。这是全球首个完全依赖仿真合成大数据预训练的具身大模型,相较于OpenVLA、π0、RT-2、RDT等模型,展现了更强的泛化能力和在真实环境中的应用潜力。近期,英伟达CEO黄仁勋在CES上的演讲引发了科技界的热议。
他首先展示了搭载Blackwell新架构的RTX 5090,然后分享了英伟达对人形机器人发展的期望,并以令人难忘的画面结束——
「银河通用的独特轮式具身大模型机器人Galbot G1缓缓托起RTX 5090。」
发布会后,黄仁勋亲自前往银河通用的展区,与Galbot机器人进行互动。
瞬间,数字智能与物理智能的结合、AI基础设施与AI模型及硬件的协同发展、科技巨头与超级创投的合作,激发了前所未有的科技活力。
全球目光聚焦于此,这位「AI教父」为何如此执着?为何唯独这家公司获得了万亿巨头的青睐?
具身智能在当今的科技变革中扮演着核心角色,深刻影响着人类社会的发展。
对于具身智能来说,「数据瓶颈」是业界公认的最大挑战。有些团队认为具身智能和自动驾驶一样主要依赖真机数据,而有些团队则认为需要采用大规模视频数据学习的策略,全球的研究团队对此观点不一。
迄今为止,国内外已有多个研发团队发布了百万级的真机数据集,但关于真机数据应采集到何种规模、达到何种多样性、以及机器人硬件迭代后数据如何跟进等问题尚未有明确答案。
今天,银河通用与北京大学、北京智源人工智能研究院(BAAI)、香港大学的研究人员共同发布了全球首个端到端具身抓取基础大模型GraspVLA。
作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现了比OpenVLA、π0、RT-2、RDT等模型更强的泛化能力和在真实场景中的应用潜力。
与GraspVLA一同发布的,还有GraspVLA团队总结的具身基础模型七大泛化「金标准」,按照Vision、Language、Action进行分层,这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。
在之前发布的模型中,RDT初步展示了背景和类内物体泛化的能力,OpenVLA、π0、GR-2等进一步展示了干扰物、平面位置泛化的能力。
如今,GraspVLA率先实现了多种能力的泛化,开创了以仿真合成大数据为核心的具身大模型发展新范式。
VLA预训练能否泛化?GraspVLA团队给出了七大金标准。
GraspVLA团队表示,尽管近年来具身VLA大模型在泛化性上取得了一定进展,但迟迟未有产品落地,原因在于从实验室到真实工作场景,模型难以通过各种环境因素动态变化的考验。团队认为不仅要关注任务能否被成功完成,更需关注任务在什么条件下可以成功完成。
银河通用的研发团队向我们展示了对GraspVLA模型以下泛化能力的全面评测:
(2倍速)
在更极端的情况下,团队让模型经历从明到暗,甚至是几近完全黑暗的情况下对目标物体进行移动,在实时观测到目标物体移动后,大模型驱动机器人立即朝移动后的位置进行抓取,展现了GraspVLA大模型在极端光照条件下的强大适应能力与执行力。
(2倍速)
(桌面泛化,3倍速)
银河通用发布的视频中还指出,GraspVLA采用双视角作为输入,我们看到的视频画面对应机器人正前方摄像头视角。
当背景快速动态变化时,模型仍稳定执行任务,丝毫不受干扰,展现了GraspVLA大模型在动态环境中对变化背景的强大适应能力。
(背景墙泛化,3倍速)
(3倍速)
(3倍速)
我们可以看到,在左上角视频中,抓取目标在桌面上剧烈旋转时,GraspVLA也能定位到;在左下角视频中,目标物体胡桃夹子被撞走了至少三次,每次GraspVLA都明显立即进行了调整。
6. 闭环动作输出,不同姿态不同抓法进行抓取时,即使目标物体被人为移动位置、甚至从立着改为倒下,GraspVLA都能实时调整动作完成抓取:
7. 零样本Sim2Real抓取新物体机器人领域公认使用仿真合成数据训练模型具有Sim2Real Gap问题,然而,银河通用强调,GraspVLA进行上述测试的所有物体、环境均未参与任何训练。
此外,即使是从未出现在合成动作数据中的类别,仅经过互联网图文数据联合预训练,GraspVLA也能准确识别并把抓取能力泛化迁移:
快速对齐产品新需求?GraspVLA展现基座大模型属性
经过以上七大金标准的检验,研究团队充分论证了GraspVLA作为全球首个端到端抓取大模型的零样本泛化能力。
众所周知,基座大模型的另一个重要属性是,能够通过少样本迅速对齐用户新需求。
研究团队表示,机器人模型落地过程中,不同场景会有不同的特殊需求,因此借助商超、工厂、家庭三个场景中的典型情形,进一步检验GraspVLA的快速适应及迁移能力。
(未按照顺序抓取指定商品,2倍速)
为此,研究团队采集了少量(少于一个人遥操一天)的按序抓取数据,GraspVLA就轻松理解了「顺序」这一要求,充分展现基座模型的快速学习能力:
研究团队进一步检验了这一能力对后训练分布外情形(OOD)的泛化性。
尽管只采集了怡宝的数据,但GraspVLA将按序抓取这种行为自动迁移到其他品牌的饮品(东方树叶、农夫山泉),按摆放顺序分别抓取了瓶身颜色不同、瓶盖大小不一的同类商品,充分验证了GraspVLA作为基础大模型的泛化能力。
银河通用的研发团队发现,尽管预训练的模型可以轻松抓起任意零件,但是常常会「抓错」,比如,指定「抓取车窗控制器」,模型却抓起了接线座:
团队进一步采集了少量轨迹进行快速后训练,让GraspVLA快速掌握了诸如接线座(wiring base)、三角板(triangular panel)、黑色软管(black hose)等特殊工业名词。
再结合其预训练期间对于物体平面位置摆放的泛化性,模型迅速学会了从任意摆放的密集场景中精准找出对应零件:
(3倍速)
同样通过采集少量带用户偏好的抓取轨迹,GraspVLA就「听懂了」抓取洗漱杯时,不能接触杯子内壁:
(对齐后 3倍速)
从上面的三种典型应用场景来看,GraspVLA不仅「能力强」,还「懂人话」。
在新的场景中,直接部署预训练的GraspVLA,就能轻松实现物体抓取。而针对用户的新需求,也仅需少量数据即可让它快速调整。凭借这一能力,无论需要在何时何地部署,仅需人类简单的「指导」,机器人即可迅速「上岗干活」。
这充分展现了银河通用团队提出的「大规模合成数据预训练」这种范式在商业落地中的潜力。
合成大数据驱动的 VLA 预训练新范式
英伟达期望看到能够托举起未来世界的人形机器人,让这些机器人在各类复杂任务中能够自主执行,拥有泛化的能力。然而,这一宏伟目标在过去主流数据采集范式下面临着两大瓶颈。
瓶颈一:数据昂贵且稀缺。机器人技术的核心问题之一是大规模高质量数据的获取。现有的训练数据采集方式人工成本高、资金开销大、采集周期长。此外,目前机器人硬件还在快速迭代,即使在现有硬件上高成本采集大规模数据,也可能迅速过时、与最新硬件不匹配,形成数据短板与沉没成本。
瓶颈二:技能泛化性与通用性不足。受限于物理条件,真机数据采集往往无法覆盖所有可能的实际应用场景,导致训练出的模型难以泛化,因此目前的很多机器人只能在特定的环境条件和特定的物体下完成任务,缺乏对新环境的适应能力。
银河通用表示,GraspVLA能达到如今的惊艳效果,离不开团队多年研究合成仿真数据的经验和对使用合成仿真数据的坚持。
为了突破上述两大瓶颈,银河通用的团队开创性地研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线,并在NVIDIA Isaac平台的基础上,进一步提高数据的物理真实性和物理渲染的并行度。
这套数据生产管线在短短一周内就能生成全球规模最大的十亿级机器人操作数据集。不仅极大降低了数据生产的时间成本、人力成本、资金成本,还广泛提高了数据对各种场景的覆盖率。如此规模和质量的数据,是GraspVLA强大的抓取泛化能力的前提。
此次发布中,GraspVLA展现出的强大泛化与高效对齐能力引发我们深思:这一路线所展现出的全方位优越性,是否将一改业界对仿真合成路线的看法,开创合成大数据驱动的VLA预训练新范式?这是否意味着大规模仿真合成数据预训练将取代现有的高成本人工采集方案,带领具身大模型的发展进入新的时代?
银河通用还透露,联合研发团队在过去一年里也在导航VLA模型(NaVid系列模型)的研究上取得了重大突破,将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。
团队表示,他们后续将不断融合团队多年积累,推出全面融合抓放、关节类物体操作、柔性物体操作等各类技能的全能大模型,继续走以仿真合成数据为唯一预训练来源的道路,确保所有大模型能够以最小成本迅速进化,迈向具身智能领域的下一个高峰。
以上就是真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号