微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 硬件教程 > 硬件测评 > 正文

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

花韻仙語

发布： 2024-11-15 14:24:02

转载

632人浏览过

大模型的具身智能决策能力，终于有系统的通用评估基准了。

李飞飞吴佳俊团队新提出的评估框架，对具身智能决策的四项关键子能力来了个全面检查。

这套基准已经被选为了 NeurIPS 数据和测试集（D&B）专栏 Oral 论文，同时也被收录进了 PyPI，只要一行代码就能快速调用。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

该框架名为Embodied Agent Interface（简称 EAI），提供了连接不同模块和基准环境的标准接口。

利用这套框架，作者对 18 款主流模型进行了测试，形成了一篇超百页的论文。

测试结果显示，在已公开的大模型当中，o1-preview 的综合成绩位列第一。

李飞飞本人表示，对这项合作研究感到非常兴奋。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

有网友评价说，这项成果为大模型具身智能决策塑造了未来。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

四项子能力全面评估

首先，EAI 提供了一种统一的目标表示方法，能够兼容不同类型的目标，并支持复杂约束的描述。

团队认为，现有的具身决策任务通常针对特定领域设计目标，缺乏一致性和通用性。

例如，BEHAVIOR 和 VirtualHome 都是具身智能体的评测基准和模拟环境，用于研究智能体在复杂环境中完成任务的能力。

但二者又有所区别，BEHAVIOR 使用基于状态的目标，而 VirtualHome 使用时间扩展的目标。

EAI 则通过引入线性时态逻辑（LTL），实现了目标表示方式的统一，提高了模块之间的互操作性，便于比较不同模型在同一任务上的表现。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

在具体的评估过程当中，EAI 采用了模块化的评估方式，并将评估指标进行了更细粒度的划分。

以往的研究通常将大模型作为整体进行评估，很少关注其在具身决策各个子任务上的表现；

同时，这些现有基准通常只关注任务的最终成功率，很少深入分析模型的错误类型和原因。

为了更深入理解大模型的行为模式和优劣势分布，EAI 提出了四个关键能力模块，并设计了一系列细粒度的评估指标：

将模型能力分为四个关键模块；

定义了清晰的输入输出接口；

从轨迹可执行性、目标满足度、逻辑匹配性等多个角度评估模型的性能；

引入了丰富的注释（如目标状态、关系、动作），以实现自动化的错误分析。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

具体来说，四个关键模块及内容分别是：

目标解释（Goal Interpretation）：将自然语言表述的任务目标转化为形式化的 LTL 目标公式；

子目标分解（Subgoal Decomposition）：将任务目标分解为一系列子目标，每个子目标也用 LTL 公式表示；

讯飞星火

讯飞星火

科大讯飞推出的多功能AI智能助手

讯飞星火

120

讯飞星火

动作序列规划（Action Sequencing）：根据任务目标生成动作序列，在环境中执行以达成目标状态；

转换建模（Transition Modeling）：为每个动作或操作符生成前提条件和效果，形成环境转换模型。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

另外，EAI 选取了两个具有代表性但特点迥异的环境，也就是前面提到的 BEHAVIOR 和 VirtualHome。

相比于单一环境评估，EAI更能考察大模型跨领域的泛化能力，有助于全面理解其适用范围和局限性。

o1-preview 综合成绩第一

利用 EAI 这套标准，研究团队对 GPT、Claude、Gemini 等 18 款主流模型（型号）的决策能力进行了评估。

在 BEHAVIOR 和 VirtualHome 环境下，o1-preview 均获得了排行榜综合成绩第一名。

其中在 BEHAVIOR 环境中，o1-preview 得分为 74.9，比第二名的 Claude 3.5 Sonnet 高了 10 多分，排在之后的是 60 分左右的 Claude 3 Opus 和 GPT-4o。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

到了 VirtualHome 环境下，依然是 o1-preview 领先，但前三名的成绩相对接近。

同时 Gemini 1.5 Pro 变成了第二名，不过整体来看排行靠前的几个模型和 BEHAVIOR 环境类似。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

当然如果比较单项能力，不同模型也体现出了各自不同的优势项目。

比如在 BEHAVIOR 环境中，总分排第二的 Claude 3.5 Sonnet，目标解释能力略高于总分排第一的 o1-preview。

在 VirtualHome 环境中，总分相对靠后的 Mistral Large，在动作序列规划上取得了第一名。

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

作者还对各模型的失败情况进行了深入分析，发现了将中间状态误识别为最终目标状态、对隐含的物理关系理解不足、忽略重要的前提条件等具体问题。

这些发现能够让研究人员对模型的优缺陷进行更深层的了解，为之后的研究提供了重要参考。

项目主页：

https://embodied-agent-interface.github.io/

论文：

https://arxiv.org/abs/2410.07166

代码：

https://github.com/embodied-agent-interface/embodied-agent-interface

数据集：

https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

以上就是李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai claude 区别 gemini 接口 Interface transition github https 自动化 gpt

大家都在看：

大疆无人机怎么用大师镜头_大疆无人机大师镜头功能与拍摄效果解析闪迪双 11 开门红大促开启专业影像 + 高能游戏存储装备一站就购了显存频率与时序调整：如何找到最佳性能甜点？笔记本电脑外接显卡坞（eGPU）的性能损耗实测三季度中国智能音箱销量为 305.7 万台同比下降 11.9%

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：ZAKER网

上一篇：小米 14 Ultra 罕见工程机曝光紫色玻璃款网友：没量产太可惜了下一篇：灵宝 CASBOT 首款人形机器人产品— CASBOT 01 发布，通用类脑智能机器人瞄准多场景落地

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

大疆无人机怎么用自定义按键_大疆无人机自定义按键功能与快捷操作设置通过DJIFlyApp可自定义大疆无人机遥控器C1、C2及五维键功能，提升操控效率。首先在连接飞行器后进入App设置中的遥控器配置界面；接着为C1、C2分配拍照、录像等常用功能，支持短按与长按区分操作；再设置五维键四向及中键功能，实现变焦、环绕、急停等快捷控制；最后可创建多组预设模式（如标准、运动、作业模式），通过模式开关一键切换整套按键配置，适应不同拍摄或作业场景，显著提升操作便捷性与响应速度。

2025-11-06 22:55:02

381

摄像机怎么拍摄慢动作视频_摄像机慢动作视频拍摄设置与技巧分享要拍摄清晰的慢动作视频，需使用支持高帧率的摄像机并设置1080p120fps或4K60fps以上模式，确保充足光照、合理快门速度（如1/240秒配120fps），配合三脚架防抖，并精准把握动作时机以完整捕捉关键瞬间。

2025-11-06 22:43:32

836

电容品质决定寿命？日系电容与台系电容电源长期老化测试日系电容因材料与工艺优势，寿命和稳定性优于台系电容。在高温老化测试中，日系品牌如Rubycon、Nichicon的ESR上升更慢、容量保持率更高，满载三年内ESR增幅低于15%，而部分台系产品可达25%以上。台系电容虽成本低、供货强，但电解液和铝箔等级较低，长期高温下易挥发、内阻增大，高端型号寿命标称达8000-10000小时，实际衰减仍较快。专业老化测试显示，日系电容参数变化平缓，失效晚；部分台系电容在1000-2000小时后即出现容量下降超20%或ESR翻倍。电源可靠性高度依赖主电容品质，选

2025-11-06 21:30:08

825

大疆无人机怎么用运动跟拍_大疆无人机运动跟拍模式与动态场景拍摄正确设置大疆无人机的智能跟随功能可实现运动场景自动追踪拍摄。首先在GPS良好环境下启动飞行器并连接DJIFlyApp，进入相机模式选择智能跟随，用绿色方框锁定目标后确认追踪。随后根据场景选择子模式：追踪模式适用于后方直线跟随，平行模式用于侧面跟拍，环绕模式可拍摄环绕动态画面，设定后点击“GO”启动。拍摄中可通过遥控器调整飞行高度、距离和云台角度，结合手动控制优化构图；同时在App中设置跟随速度等级，并开启避障功能提升安全性，高速运动时可适当降低避障灵敏度以防误停。

2025-11-06 20:25:02

582

大疆无人机怎么用微距拍摄_大疆无人机微距镜头使用与细节捕捉方法使用外接微距镜头或长焦变焦功能可实现大疆无人机的精细近景拍摄，通过加装兼容微距附件、切换至长焦镜头放大局部、或低空慢速贴近飞行，结合手动对焦与稳定模式，有效提升细节捕捉能力。

2025-11-06 19:43:34

462

如何通过Afterburner自定义风扇曲线以优化显卡散热？开启MSIAfterburner风扇控制权限后，通过自定义风扇曲线可平衡散热与噪音；建议60°C以下设30%~40%转速，70°C升至60%，80°C达80%~90%，85°C以上满速，再经压力测试微调并保存预设，提升显卡稳定性与寿命。

2025-11-06 19:41:02

892

主板BIOS降级与升级操作指南及风险规避升级BIOS可支持新CPU、修复漏洞，降级仅在新版引发问题时使用；操作前需确认版本、下载官网固件、用FAT32U盘通过Q-Flash等工具刷新，全程不断电，避免刷错或频繁操作，降级需关闭SecureBIOS且风险极高，建议仅作紧急手段。

2025-11-06 18:29:02

895

摄像机怎么拍摄黑白照片_摄像机黑白模式设置与艺术效果拍摄方法启用黑白模式拍摄可提升影像艺术感，需调整相机设置并注重光影构图。首先在菜单中选择“黑白”或“Monochrome”模式，实时预览画面以优化对比度与锐度；专业设备可加载黑白LUT实现监看且保留彩色信息，便于后期调色；为最大化灵活性，建议用LOG或RAW格式录制，后期通过DaVinciResolve等软件去色并精细调节通道明暗、对比度与影调；拍摄时可使用红色或偏振滤镜压暗天空、增强纹理，突出层次；布光宜选侧光或逆光强化立体感，结合高对比场景与简洁构图，利用线条与几何形状构建视觉节奏。此流程兼顾前期控

2025-11-06 18:05:31

253

大疆无人机怎么用延时运镜_大疆无人机延时运镜设置与动态变化记录大疆无人机延时运镜需根据场景选择模式：自由延时手动操控飞行路径，适合个性化运镜；环绕延时自动绕目标旋转，适用于地标拍摄；定向延时沿直线跟拍或飞行，表现纵深空间变化；轨迹延时可预设最多5个点位，实现复杂运镜；所有模式均需合理设置拍摄间隔、飞行高度等参数，并注意环境安全与光线条件，确保画面流畅稳定。

2025-11-06 17:04:03

810

大疆无人机怎么用定时拍摄_大疆无人机定时拍照与录像功能使用教程大疆无人机可通过DJIFlyApp设置定时拍照、自由延时或航点飞行实现自动拍摄。首先连接App并选择相机模式，设定拍摄间隔时间（如2-60秒），点击开始即可自动连续拍照；若使用自由延时功能，需在选定位置悬停无人机，设置拍摄间隔与张数，调整白平衡、曝光及手动对焦后启动拍摄；对于复杂场景，可规划航点飞行任务，在地图上添加多个航点并设置停留时间、拍摄动作、飞行高度和云台角度，保存航线后无人机将沿预定路线自动执行拍照任务，适用于日出日落或城市变迁等延时摄影创作。

2025-11-06 15:35:02

577

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部