0

0

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

王林

王林

发布时间:2024-08-11 16:27:30

|

883人浏览过

|

来源于机器之心

转载

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。

然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。

此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对运动的建模能力。

针对以上问题,苹果研究人员提出了 SlowFast-LLaVA(简称 SF-LLaVA)。这一模型基于字节团队开发的 LLaVA-NeXT 架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频 LLM 设计了一套新颖的 SlowFast 输入机制。

简单来说,SF-LLaVA 将通过两种不同的观察速度(Slow 和 Fast)来理解视频中的细节和运动。

  • 慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token)
  • 快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性

这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频 LLM 的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切sota

论文链接:https://arxiv.org/pdf/2407.15841

实验结果显示,SF-LLaVA 在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的 SFT 模型相比,SF-LLaVA 能达到相同性能,甚至更好。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

模型架构

如下图所示,SF-LLaVA 遵循标准的免训练视频 LLM 流程。它以视频 V 和问题 Q 作为输入,输出对应的答案 A。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

对于输入,要从每个视频任意大小和长度中均匀采样 N 帧,I = {I_1, I_2, ..., I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为 F_v ∈ R^N×H×W,其中 H 和 W 分别是帧特征的高度和宽度。

下一步需要在慢速和快速两个路径中进一步处理 F_v,并将它们结合起来作为有效的视频表示。慢速路径从 F_v 中均匀采样给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA的帧特征,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

此前有研究发现,在空间维度上适当池化可以提高视频生成的效率和鲁棒性。因此,研究团队在 F_v 上应用步长为 σ_h×σ_w 的池化过程,得到最终特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。慢速路径的整个过程如公式 2 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

快速路径保留 F_v 中的所有帧特征,以尽可能多地捕捉视频的长程时间上下文。具体来说,研究团队使用空间池化步长给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA对 F_v 进行激进的下采样,得到最终特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。研究团队设置给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

最后,获得聚合的视频特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA个视频 token。视频的视觉特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。

SlowFast 流程如公式 4 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

LongShot
LongShot

LongShot 是一款 AI 写作助手,可帮助您生成针对搜索引擎优化的内容博客。

下载
实验结果

研究团队对 SF-LLaVA 进行了全面的性能评估,将其与当前 SOTA 免训练模型(如 IG-VLM 和 LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频 LLM,例如 VideoLLaVA 和 PLLaVA 进行了比较。

开放式视频问答

如下表所示,在开放式视频问答任务中,SF-LLaVA 在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载 7B 和 34B 参数规模的 LLM 时,SF-LLaVA 分别在 MSRVTT-QA 上比 IGVLM 高出 2.1% 和 5.0%,在 TGIF-QA 上高出 5.7% 和 1.5%,在 ActivityNet-QA 上高出 2.0% 和 0.8%。

即使与经过微调的 SFT 方法相比,SF-LLaVA 在大多数基准测试中也展现了可比的性能,只有在 ActivityNet-QA 这一基准上,PLLaVA 和 LLaVA-NeXT-VideoDPO 略胜一筹。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

多项选择视频问答

从下表中可见,在所有基准测试中,SF-LLaVA 在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的 EgoSchema 数据集中,SF-LLaVA7B 和 34B 的版本相较 IG-VLM 模型的得分分别高出 11.4% 和 2.2%。

虽然 VideoTree 在基准测试中领先,因为它是基于 GPT-4 的专有模型,因而性能远高于开源 LLM。与 SFT 方法相比,SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果,这证实了 SlowFast 设计处理长视频方面的强大能力。
Text Generation 

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

文生视频

如表 3 所示,对于文本生成视频的任务,SF-LLaVA 也显示出了一些优势。SF-LLaVA-34B 在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA 略逊于 LLaVA-NeXT-Image。基于 SlowFast 设计,SF-LLaVA 可以用更少的视觉 token 覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。

此外,在文生视频的表现上,SF-LLaVA-34B 也优于大多数 SFT 方法。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

更多细节,请参考原论文。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

782

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1095

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1725

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

45

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

40

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

41

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号