讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

DDD

发布时间：2024-12-31 21:15:13

|

1012人浏览过

|

来源于php中文网

原创

GRAPE：通过偏好对齐提升机器人策略泛化能力

aixiv专栏持续报道全球顶尖ai研究成果。本文介绍一篇来自北卡罗来纳大学教堂山分校、华盛顿大学及芝加哥大学的研究，该研究提出了一种名为grape的新算法，显著提升了视觉-语言-动作（vla）模型的泛化能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GRAPE算法框架图

论文第一作者为北卡罗来纳大学教堂山分校的张子健，指导老师为助理教授Huaxiu Yao。共同第一作者为华盛顿大学的Kaiyuan Zheng。其他作者来自北卡教堂山、华盛顿大学和芝加哥大学。

论文信息:

标题: GRAPE: Generalizing Robot Policy via Preference Alignment
链接: https://www.php.cn/link/96fb9b48825b741083d35b0137af1be0
项目地址: https://www.php.cn/link/009d69d2d1b986815e7b825382d73af5
代码地址: https://www.php.cn/link/af12e5e50bc88cf41241244cf4ced8988c7

研究挑战与GRAPE的解决方案

现有的VLA模型在机器人任务中的泛化能力有限，主要原因在于它们依赖于成功的执行轨迹进行行为克隆，难以应对新任务和环境变化。 GRAPE算法通过偏好对齐来解决这个问题，其核心思想是将VLA模型与预设目标对齐，从而提升其泛化能力。

GRAPE算法框架图

GRAPE具有三大优势：

轨迹级强化学习对齐: GRAPE在轨迹层面使用强化学习目标对VLA模型进行优化，使其能够全局地进行决策，而非简单的行为模仿。
隐式奖励建模: GRAPE能够隐式地对成功和失败尝试进行奖励建模，从而增强其对多样化任务目标的适应能力。
可扩展的偏好合成: GRAPE采用可扩展的算法合成偏好，能够将VLA模型与任意目标（如效率、安全性、任务完成度）对齐。

算法核心模块

GRAPE由三个核心模块构成：

轨迹级偏好优化 (Trajectory-wise Preference Optimization, TPO): 通过改进的DPO损失函数(TPO_Loss)，根据优劣轨迹样本进行训练，实现轨迹级别的偏好对齐。

小蓝本
ToB智能销售增长平台

下载
定制化偏好合成 (Customized Preference Synthesis): 针对复杂任务缺乏明确奖励模型的问题，GRAPE通过大型视觉-语言模型分解任务阶段，并自动引导偏好建模过程，实现对不同目标的定制化对齐。
迭代式在线对齐 (Iterative Online Alignment): 通过迭代的在线样本采集、偏好排序和轨迹级偏好优化，逐步提升VLA策略的泛化能力和目标对齐程度。

实验结果与结论

GRAPE在真实机器人和仿真环境下均进行了测试，结果表明其在各种分布外泛化任务（包括视觉、物体、动作、语义和空间位置变化）上显著优于现有最先进的OpenVLA-SFT模型。此外，GRAPE还能有效地将机器人策略与安全性、效率等目标对齐，例如降低碰撞率或缩短执行时间。

真机与仿真实验结果

安全目标对齐示例

GRAPE为提升VLA模型的泛化能力提供了一种有效的方法，其即插即用的特性使其在各种机器人任务中具有广泛的应用前景。

相关文章

盘古怎样拆分学习目标阶段_盘古目标拆解贴士【贴士】

天工怎么生成市场调研问题_天工调研提纲生成【方法】

百度Ai搜索怎样筛选最新资讯_百度Ai搜索筛新资讯招式【教程】

天工如何辅助数据分析洞察_天工分析提效途径【妙招】

夸克AI搜索怎么保存常用搜索模板_夸克AI搜索存模板法子【教程】

相关标签:

git ai github 算法 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o 下一篇：法拉第未来即将再度交付一辆FF 91 总交付量达15辆

作者最新文章

抖音如何创建多个账号？创建多个账号有什么好处？

2026-01-11 11:05

iPhone折叠屏前瞻苹果需要解决这三大难题

2026-01-11 11:05

汉印错题app怎么打印文档-文档打印步骤

2026-01-11 11:08

2026LPL第一赛段集结海报！双眼皮的Bin哥依旧犀利

2026-01-11 11:08

如何领取广东省育儿补贴

2026-01-11 11:08

全民K歌如何设置出好听音效

2026-01-11 11:08

如何在Java中正确实现数组元素删除并避免过早抛出异常

2026-01-11 11:13

GStreamer 动态图像叠加：基于时间戳切换 PNG 覆盖图

2026-01-11 11:13

《光与影：33号远征队》最终BOSS难度低于开发者预期

2026-01-11 11:13

Laravel 中正确绑定数组参数实现 WHERE IN 查询的完整指南

2026-01-11 11:14

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

页面置换算法

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

398

2023.08.14

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1921

2024.08.16

c++主流开发框架汇总

c++主流开发框架汇总

本专题整合了c++开发框架推荐，阅读专题下面的文章了解更多详细内容。

78

2026.01.09

c++框架学习教程汇总

c++框架学习教程汇总

本专题整合了c++框架学习教程汇总，阅读专题下面的文章了解更多详细内容。

46

2026.01.09

学python好用的网站推荐

学python好用的网站推荐

本专题整合了python学习教程汇总，阅读专题下面的文章了解更多详细内容。

121

2026.01.09

学python网站汇总

学python网站汇总

本专题整合了学python网站汇总，阅读专题下面的文章了解更多详细内容。

12

2026.01.09

python学习网站

python学习网站

本专题整合了python学习相关推荐汇总，阅读专题下面的文章了解更多详细内容。

15

2026.01.09

俄罗斯手机浏览器地址汇总

俄罗斯手机浏览器地址汇总

汇总俄罗斯Yandex手机浏览器官方网址入口，涵盖国际版与俄语版，适配移动端访问，一键直达搜索、地图、新闻等核心服务。

71

2026.01.09

漫蛙稳定版地址大全

漫蛙稳定版地址大全

漫蛙稳定版地址大全汇总最新可用入口，包含漫蛙manwa漫画防走失官网链接，确保用户随时畅读海量正版漫画资源，建议收藏备用，避免因域名变动无法访问。

370

2026.01.09

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 0.6万人学习

Node.js 教程

Node.js 教程

共57课时 | 8.4万人学习

CSS3 教程

CSS3 教程

共18课时 | 4.4万人学习

最新文章

更多

豆包AI怎样让回答贴合行业语境_豆包AI贴语境招式【教程】

豆包怎样创作短视频脚本_豆包脚本生成思路【指引】

悟道如何训练专属问答模型_悟道微调模型方法【要点】

百度Ai搜索怎么限定地域检索_百度Ai搜索限地域法子【指南】

百度Ai搜索如何识别虚假信息_百度Ai搜索辨虚假窍门【攻略】

Kimi如何协助长文阅读提炼_Kimi长文摘要提取法【窍门】

豆包AI如何使用隐喻提问获深答_豆包AI隐喻提问法子【方法】

夸克AI搜索怎么定制搜索范围_夸克AI搜索定制范围做法【方法】

智谱清言怎么梳理行业趋势报告_清言趋势归纳贴士【贴士】

豆包AI如何关联历史对话作答_豆包AI联历史对话做法【贴士】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部