0

0

BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器

PHPz

PHPz

发布时间:2024-01-24 15:33:23

|

1204人浏览过

|

来源于51CTO.COM

转载

目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟踪的发展对于实现更高水平的计算机视觉应用具有重要意义。

然而,现有的多模态跟踪任务也面临两个主要问题:

  1. 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;
  2. 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。

在RGB序列上进行预训练,然后完全微调到多模态场景的许多多模态跟踪工作存在时间和效率问题,同时性能有限。

除了完全微调方法之外,还受到自然语言处理(NLP)领域参数高效微调方法的启发。最近的一些方法在多模态跟踪中引入了参数高效prompt微调。这些方法通过冻结骨干网络参数,并添加一组额外可学习的参数来实现。

通常,这些方法主要以一种模态(通常是RGB)作为主要模态,而另一种模态则作为辅助模态。然而,这种方法忽视了多模态数据之间的动态关联性,因此在复杂场景中无法充分利用多模态信息的互补效果,从而限制了跟踪性能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 1:复杂场景下不同的主导模态。

为了解决上述问题,天津大学的研究人员提出了一种名为双向适配器用于多模态跟踪(BAT)的解决方案。与传统方法不同的是,BAT方法不依赖于固定的主导模态和辅助模态,而是通过动态提取有效信息的过程中,在辅助模态向主导模态的变化中获得更好的性能。这种方法的创新之处在于它能够适应不同的数据特征和任务需求,从而提高基础模型在下游任务中的表示能力。通过使用BAT方法,研究人员希望能够提供一种更加灵活和高效的多模态跟踪解决方案,为相关领域的研究和应用带来更好的效果。

BAT 由两个特定于模态分支的共享参数的基础模型编码器和一个通用的双向适配器组成。在训练过程中,BAT 并没有对基础模型进行全面微调,而是采用了逐步训练的方法。每个特定的模态分支都是通过使用固定参数的基础模型进行初始化的,只训练新增的双向适配器。每个模态分支从其他模态中学习提示信息,并与当前模态的特征信息相结合,以增强表征能力。两个特定模态的分支通过通用双向适配器进行交互,动态地相互融合主导和辅助信息,以适应多模态非固定关联的范式。这种设计使得BAT能够在不改变原内容意思的情况下微调内容,提高模型的表征能力和适应性。

通用双向适配器采用轻量级沙漏结构,可以嵌入到基础模型的每一层transformer编码器中,避免引入大量可学习参数。通过仅增加少量的训练参数(0.32M),与全微调方法和基于提示学习的方法相比,通用双向适配器具有更低的训练成本,并获得更好的跟踪性能。

论文《bi-directional adapter for multi-modal tracking》:

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载

主要贡献

  • 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。
  • 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。
  • 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 2:BAT 的总体架构。

首先将每种模态的首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024模板帧(第一帧中目标物体的初始框首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024)和首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024搜索帧(后续追踪图像)转换为 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构,双向 adapter 可以有效地在 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024 模态之间进行特征提示,实现多模态跟踪。

由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 4 跟踪结果的可视化。

我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 5 VisEvent 数据集下追踪结果。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 6 attention 权重可视化。

我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。

实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6096

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

806

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1249

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1987

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

468

2024.06.04

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

131

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

54

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号