0

0

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

花韻仙語

花韻仙語

发布时间:2024-10-02 19:35:59

|

1023人浏览过

|

来源于机器之心

转载

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的作者主要来自于 Meta 和佐治亚理工大学。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转入 UIUC),主要研究方向是多模态学习,生成模型和视频理解,并在 CVPR、ECCV、BMVC、ACL 等会议发表相关论文,参与 Meta 主导的 EgoExo4D 项目,本文工作是赖柏霖在 Meta 的 GenAI 部门实习时完成,其余作者均为 Meta 的研究科学家。

作者主页:https://bolinlai.github.io/

当人们在日常生活和工作中需要完成一项自己不熟悉的任务,或者习得一项新技能的时候,如何能快速学习,实现技能迁移(skill transfer)成为一个难点。曾经人们最依赖的工具是搜索引擎,用户需要自己从大量的搜索结果中筛选出答案。最近几年出现的大语言模型(LLM)可以依据用户的问题归纳生成答案,极大地提升了回复的准确率和针对性 (如图 1 所示),然而大语言模型生成的回复通常非常繁琐冗长,而且包含诸多笼统的描述,并没有针对特定用户当下的环境进行定制化的回应。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                       图 1:对于同一个问题,本文提出的 LEGO 模型直接生成图片教程,相比于大语言模型的回应更加具有针对性。

随着大语言模型逐渐获得理解图片的能力,一个简单直接的解决方案是用户在提出问题的同时也提供一张包含眼前场景的照片,这样模型便可以根据用户当下的环境来生成更准确直接的指令,从而让人们更容易跟随指令完成任务。那是否有比这更简单直接的方法呢?之前的神经科学研究表明,人类大脑处理图片的速度要远快于处理文字,如果模型可以直接生成一张图片来给用户展示如何执行下一步,便可以进一步提升人们的学习效率。

在今年的 ECCV Oral Session,来自 Meta、佐治亚理工(Georgia Tech)和伊利诺伊香槟分校(UIUC)的研究者们提出一个新的研究问题:如何基于用户的问题和当前场景的照片,生成同一场景下的第一视角的动作图像,从而更准确地指导用户执行下一步行动?

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

  • 论文地址:https://arxiv.org/pdf/2312.03849

  • 项目主页:https://bolinlai.github.io/Lego_EgoActGen/

  • 开源代码:https://github.com/BolinLai/LEGO

挑战和解决方案

目前有众多大模型在图片生成任务上取得了极佳的效果,但这些模型在应用到本文提出的动作图像生成的问题时,有两个尚未解决的挑战(如图 2 所示):(1)当下的数据集中的动作标注非常简略(通常为动词 + 名词),这使得模型难以理解动作的细节;(2)现存模型的预训练数据基本上都是第三视角的物体或者场景图片,并且文本中鲜有动作相关的描述,这与本文任务中所使用的数据之间存在很明显的差距(domain gap)。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                       图 2:面临的挑战:(1)动作细节的缺失,(2)训练数据与现存模型存在差别。

针对这两个问题,研究者们提出使用第一视角的动作数据对大语言模型进行微调(visual instruction tuning)来丰富动作的具体细节,同时将大语言模型的图像和文本特征作为扩散模型的额外输入,从而缩小 domain gap。

基于 GPT 的数据收集

为了对大语言模型进行训练,本文使用 GPT-3.5 来收集详细的动作描述作为训练数据(见图 3),具体方法为对于少量数据(本文中为 12 个动作)进行人工扩写动作细节,然后将这些人工撰写的描述放入 GPT 的输入(prompt)中进行基于上下文的学习(in-context learning),同时本文作者还将物体和手部的包围框(bounding box)一起输入,从而使 GPT 可以理解当前环境下物体与手的空间位置信息,通过这种方案,GPT 可以模仿少量人工标注的数据来生成大量的动作描述,这些采集到的数据会被用于大语言模型的微调。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                   图 3:基于 GPT-3.5 的详细动作描述采集。

模型结构和方法

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                       图 4:模型结构。

本文提出的 LEGO 模型分为两个步骤:(1)大语言模型基于视觉指令的微调(visual instruction tuning),(2)动作图像生成(action frame generation)。

  • 基于视觉指令的微调(如图 4a 所示):本文将用户提供的包含当前环境信息的图片输入预训练好的图片编码器,然后使用一层线性层将特征映射到 LLM 的特征空间,与用户的问题一起输入 LLM 中,LLM 可以基于图片信息来生成可以直接应用于当前环境的详细动作指令,从而为动作图像生成提供更多的细节,解决了现有数据集中动作标注过于简略的问题。

    Pomelli
    Pomelli

    Google Labs推出的AI营销工具

    下载
  • 动作图像生成(如图 4b 所示):本文使用隐空间扩散模型(latent diffusion model)来进行图像生成,考虑到本文数据和现有模型预训练数据之间的差异,作者将大语言模型中的图像特征以及文本特征一起作为额外的条件(condition),和动作描述一起输入到扩散模型中。为了连接大语言模型和扩散模型的特征空间,作者使用了线性层来映射图片特征;对于文本特征,本文在线性层之外使用了两层自注意力(self-attention)层来获得文本整体的语义;对于动作描述,则直接使用预训练的文本编码器进行特征提取。

对比及消融实验

本方法在两个大型第一视角动作数据集 -- Ego4D 和 Epic-Kitchens 上进行验证,研究者们定义了每个动作开始和正在进行时的关键帧,并且过滤掉部分低质量的数据。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                     表 1:图像对图像(image-to-image)评测结果。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                   表 2:图像对文字(image-to-text)评测结果。                             

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                      图 5:用户评测(user study)结果。

实验中,作者将提出的方法与多个图生成模型在多个指标下进行对比,除此之外还用人工评测的方式进一步巩固实验结果。可以看到,在图像对图像(image-to-image)的六个指标中,LEGO 在两个数据集上基本都超过了对比的模型,即使在 Epic-Kitchens 的 FID 指标中略低于 IP2P,但依然是第二好的效果。除此之外,本文还使用图像对文本(image-to-text)的指标来评测生成的图片是否正确体现了动作描述,从结果可以看到,LEGO 依然在两个数据集上获得最好效果。在人工评测(user study)中,研究者们将四个模型生成的图片打乱顺序让用户选择生成质量最高的图片,结果表明,超过 60% 的用户认为 LEGO 生成的图片最符合他们的需求。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                    表 3:消融实验。

本文还对提出的模型进行了消融实验,结果表明详细的动作描述、LLM 的图片和文字特征均可以提升生成图片的质量,其中图片特征对于性能的提升最为明显。

可视化成果展示

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                       图 6:LEGO 模型在多种场景下的动作生成。

从生成图片的效果(图 6)可以看出,LEGO 模型能够很好地理解用户提问的动作细节,并生成准确的动作图像,除此之外,生成图片很好地保留了原图的背景信息,从而用户可以更简单直接地遵循图片指导来完成每一步动作。

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

                                    图 7:LEGO 模型生成同一场景下的不同动作图像。

研究者们还成功验证了 LEGO 可以在同一场景下生成多种动作图像(包括未训练过的动作),从而说明 LEGO 可以泛化到更广泛的场景。

总结

1. 本文提出了一个全新的问题:第一视角下的动作图像生成,从而可以提升人们学习新技能的效率。

2. 本文创新性地提出了对大语言模型进行微调来丰富动作细节,同时使用大语言模型的特征来提升扩散模型生成图像的性能。

3. 本文提出的 LEGO 模型在两个大型数据集和多个指标上均取得目前最好的效果。

相关专题

更多
session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

308

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

740

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

88

2025.08.19

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1979

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

364

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

2183

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

431

2024.05.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

40

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

62

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 2.7万人学习

Node.js 教程
Node.js 教程

共57课时 | 8.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号