微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

字节 Seed 发布 GR-RL，首次实现真机强化学习穿鞋带

心靈之曲

发布： 2025-12-02 16:34:01

原创

167人浏览过

字节跳动 seed 团队近日公布了其在视觉-语言-动作（vla）模型领域的最新进展——gr-rl，该研究致力于突破机器人在长时程、高精度灵巧操作任务中的能力极限。

字节 Seed 发布 GR-RL，首次实现真机强化学习穿鞋带

GR-RL 构建了一个融合离线数据筛选与在线真实环境微调的强化学习框架，在业内首次实现了“机器人自主为整只鞋连续穿入鞋带”的复杂操作。相比此前基于监督学习的 GR-3 模型，GR-RL 将任务成功率从 45.7% 显著提升至 83.3%，失败率降低近 70%。

据技术介绍，GR-RL 在原有 VLA 架构基础上引入了一个额外的判别器网络（Critic Transformer），用于评估机器人每一步动作的质量，并对整个动作序列中的每个时间步进行打分。具体实现中，采用了值分布强化学习方法，将判别器的输出建模为离散概率分布，从而更有效地应对现实环境中存在的各类噪声干扰。

字节 Seed 发布 GR-RL，首次实现真机强化学习穿鞋带

依托这一结构，GR-RL 设计了一套“从经验中学习、在实践中进化”的多阶段训练流程，包含三大核心模块：离线强化学习、数据增强和在线强化学习。

千帆AppBuilder

千帆AppBuilder

百度推出的一站式的AI原生应用开发资源和工具平台，致力于实现人人都能开发自己的AI原生应用。

千帆AppBuilder

174

千帆AppBuilder

实验在双臂轮式机器人平台 ByteMini-v2 上展开，以“穿鞋带”作为典型精细操作任务进行全面验证。该机器人具备独特的球形腕关节设计，可实现类似人类手腕的自由旋转，在执行高精度操作时展现出显著优势。

测试结果显示，仅依赖模仿学习的基线模型 GR-3 成功率仅为 45.7%，难以完成复杂穿引任务。而 GR-RL 通过阶段性优化逐步提升性能，各模块均发挥关键作用：

数据过滤：去除低质量轨迹后，离线阶段的成功率提升至 61.6%；
数据增强：通过镜像翻转等方式扩充数据集，使成功率进一步提高到 72.7%；
在线强化学习：以增强后的模型为起点，在真实机器人上进行约 150 条轨迹的闭环探索与策略修正，最终 GR-RL 的成功率达到了 83.3%。

字节 Seed 发布 GR-RL，首次实现真机强化学习穿鞋带

源码地址：点击下载

以上就是字节 Seed 发布 GR-RL，首次实现真机强化学习穿鞋带的详细内容，更多请关注php中文网其它相关文章！

相关标签：

字节字节跳动架构 transformer

大家都在看：

罗永浩回应推迟公布录音：周一有大事官宣，不想被口水战带偏 ChatGPT Android 测试版出现广告功能代码新加坡明年起禁止中学生校内使用智能手机和智能手表创历史新高！今年我国快递业务量首次突破 1800 亿件顺丰推出“超时赔付”服务：成本由公司承担，快递员无需承担

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：马斯克：AI 或成解决美国国债问题的关键下一篇：今年全国第 1800 亿件快件由京东物流送达，智狼分拣、无人车配送

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

深入理解Go语言中Map值与方法接收器的交互：为什么需要临时变量

2025-12-01 13:25:46
Discord Slash 命令响应超时问题的异步解决方案

2025-12-01 13:29:33
PHP基于会话的用户类型页面访问控制指南

2025-12-01 13:31:02
如何在复杂的电商平台中优雅地管理共享资源并确保正确重定向，使用spryker-shop/resource-share-page模块助你一臂之力

2025-12-01 13:31:44
深入理解与实现最大堆的Heapify过程：常见错误与修正

2025-12-01 13:39:27
海量存储：机器视觉智能化的核心基石

2025-12-01 13:39:43
Python中高效访问嵌套字典与列表中的键值对

2025-12-01 13:44:02
JavaScript中在Map循环中检测并处理空数组元素

2025-12-01 13:45:01
BetterDiscord插件中安全更新用户简介的实践指南

2025-12-01 13:50:40
豆包手机助手发布技术预览版：直接嵌入手机系统！努比亚样机发售

2025-12-01 14:08:01

最新问题

马斯克：AI 或成解决美国国债问题的关键特斯拉CEO埃隆·马斯克在近期一档播客节目中提出，美国当前高达38万亿美元的国债困境，或许能借助人工智能与机器人技术得到缓解。他指出，这些前沿科技可能带来显著的通缩效应，从而在一定程度上减轻国家财政压力。马斯克强调，目前美国国债利息已超过国防开支总额，且据财政专家预测，未来几年这一数字还将持续攀升。在此背景下，尽管众多科技企业正大力投资AI研发，但现阶段尚未显现出与其投入相匹配的效率飞跃。不过，他对人工智能的发展前景依然充满信心。他预测，在未来三年内，AI带来的生产力进步有望完全覆盖企业的研发与

2025-12-02 16:10:31

370

詹南德里亚卸任苹果 AI 战略负责人，微软前高管接棒 12月2日消息，苹果公司宣布，负责机器学习与人工智能（AI）战略的高管约翰・詹南德里亚（JohnGiannandrea）将从公司退休。对于近年来密切关注苹果及其在人工智能领域一系列挫折的观察人士而言，这一人事变动或许并不令人意外。以下是来自苹果官方新闻稿的内容：苹果公司今日宣布，高级副总裁、机器学习与人工智能战略负责人约翰・詹南德里亚将卸任其职务，并在2026年春季正式退休前继续担任公司顾问。同时，苹果宣布知名人工智能研究员阿马尔・苏布拉马尼亚（AmarSubramanya）已加入公司，出任

2025-12-02 15:59:08

757

快手正式全量上线可灵 AI 视频 O1 模型，全球首个统一多模态视频模型快手可灵AI团队正式发布全球首个统一多模态视频模型——可灵视频O1模型全量上线。据悉，该模型采用全新生成式架构，旨在“打破功能壁垒”，并引入了MVL（多模态视觉语言）交互系统，实现多种任务在单一输入框内的无缝整合。结合Chain-of-thought技术，模型具备出色的常识推理与事件演化能力。官方表示，基于统一模型所具备的深层语义理解能力，“每一张图片、每一段视频、每一句文本，在可灵O1看来都是可执行指令”。同时推出的还有全新设计的创作界面，用户只需通过自然对话，即可灵活调用各类素材，精

2025-12-02 15:57:28

308

龙芯中科名誉纠纷案胜诉，芯联芯需赔偿 45 万元并致歉 12月1日消息，龙芯中科今日发布了关于诉讼事项最终结果的公告。据悉，龙芯中科于2021年3月2日向北京互联网法院提交了《民事起诉状》，请求法院判令上海芯联芯智能科技有限公司就其发布的不实言论向龙芯中科及其合作伙伴公开澄清、道歉、恢复名誉、消除不良影响，并赔偿相应经济损失。该案件已于2021年7月29日正式立案，案号为（2021）京0491民初29334号。2025年7月23日，龙芯中科收到北京互联网法院出具的民事判决书，判决内容如下：一、自本判决生效之日起十

2025-12-02 15:45:06

398

国内首款电力遥感监测领域系留飞艇首飞成功 12月1日消息，据《科技日报》今日报道，11月29日，在辽宁省朝阳市建平县的天空中，国网辽宁省电力有限公司成功完成CA-60M型系留飞艇的首次飞行任务。这标志着我国在电力遥感监测领域首次投入使用自主研发的系留飞艇，成为国内该领域的首款应用机型。该飞艇依靠氦气提供的浮力，可实现连续24小时滞空飞行，承担半径达20公里的火情监控以及输电线路覆冰等电力设施运行状态的评估工作。据悉，这款飞艇总长度约为32.8米，高度约13.8米，总体积达到1818立方米。通过缆绳与地面绞车系统

2025-12-02 15:42:06

689

Nvidia 发布新 AI 模型 Alpamayo-R1 在加州圣地亚哥举办的NeurIPS人工智能大会上，Nvidia宣布推出一系列全新基础设施与AI模型，致力于推动物理AI的发展，为能够感知并交互真实世界的机器人和自动驾驶系统提供核心技术支持。备受关注的是Alpamayo-R1，这是一款专为自动驾驶研究打造的开源推理型视觉语言模型。Nvidia表示，这是业界首个专注于自动驾驶场景的视觉语言行为模型，具备处理图像与文本信息的能力，使车辆不仅能“看见”周围环境，还能基于感知内容进行决策判断。该模型构建于Nvidia自研的Cosmos-Re

2025-12-02 15:16:02

392

宁德时代董事长曾毓群回应“基层员工涨薪”：没错 12月1日讯，今日上午，有关宁德时代发布“涨薪通知”的消息冲上热搜。针对此事，《中国企业家》杂志向宁德时代创始人兼董事长曾毓群进行求证，曾毓群明确回应：“没错”。据悉，宁德时代此次发布的涨薪通知指出，为更有效地吸引和留住新老员工，持续提升工作效率与产品品质，进一步增强企业竞争力，经公司管理层研究决定，自2026年1月1日起，对1至6职级员工实施薪资调整。一、适用对象本政策覆盖宁德时代新能源科技股份有限公司及其全资子公司的1-6职级员工。二、调整内容JG1至JG6级员工的

2025-12-02 14:58:31

613

Ant Design X 2.0 正式发布，面向 AI 应用的 React UI 库近日，AntDesignXV2正式上线！此次版本更新聚焦于以下两大核心方向：底层技术栈全面升级：迁移至AntDesignV6，同步支持React19，并引入CSSVariables实现更灵活的样式架构。架构重构为monorepo模式，拆分为三个独立子包——@ant-design/x、@ant-design/x-markdown与@ant-design/x-sdk，标志着AntDesignX正式转型为面向AI应用开发的完整工具集。AntDesignX基于

2025-12-02 14:57:02

105

OpenAI 拿技术换股权：零现金入股 Thrive Holdings OpenAI宣布通过非现金方式获得私募平台ThriveHoldings的股份——不支付任何资金，而是以派遣技术团队、开放其模型与产品接口的形式，换取“具有战略意义”的股权及未来投资收益分成。值得注意的是，ThriveHoldings的母公司正是OpenAI的主要支持者ThriveCapital。因此，这项“资源换股权”的合作被业界普遍解读为一次典型的AI生态闭环交易。根据协议条款，OpenAI将首先向会计与IT服务领域的被投企业派驻工程和产品人员，协助其实现效率提升与成本优化

2025-12-02 14:55:02

103

“大空头”开火：特斯拉估值高得离谱，马斯克天价薪酬稀释股票 ▲北京时间12月1日，据《商业内幕》报道，电影《大空头》原型人物迈克尔·伯里（MichaelBurry）正将火力转向全球科技巨头。继此前批评英伟达之后，他如今又公开对准特斯拉CEO埃隆·马斯克。上周日晚间，伯里在Substack平台发文指出，特斯拉的“估值高得离谱”。此前，他曾披露已建立针对英伟达和Palantir的做空仓位。“特斯拉当前市值被荒谬地高估了，而且这种情况已经持续相当长一段时间。”伯里强调，并补充称，他预计马斯克高达1万亿美元的薪酬计划将持续稀释公司股票。他还评论道：“顺便说一句，

2025-12-02 14:53:08

529

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

CSS3 教程

33117次学习
收藏
Sass 教程

6170次学习
收藏
Pandas 教程

7658次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部