0

0

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

碧海醫心

碧海醫心

发布时间:2024-09-23 16:15:36

|

724人浏览过

|

来源于机器之心

转载

本文的主要作者来自上海交通大学智能机器人与机器视觉(irmv)实验室。本文第一作者是实验室硕士生刘久铭,主要研究方向为点云配准,雷达里程计,多模态融合,nerf/3dgs 渲染,3d生成等。曾在cvpr,iccv,eccv,aaai等会议发表论文多篇。

本文通讯作者及指导教师为王贺升教授,教授团队近年来在计算机视觉与机器人权威期刊(TPAMI,TRO)与国际顶级学术会议(CVPR,ICCV,ECCV,AAAI,ICRA,IROS)上发表多篇机器人移动定位导航相关论文,与国内外知名高校,科研机构展开广泛合作。

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。

以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略,无法捕捉细粒度像素到点的对应关系。最近,一些网络设计了点到图像的投影和局部特征聚合,如图 1 b) 所示,但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。

为了解决这些问题,来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

  • 论文链接:https://arxiv.org/pdf/2403.18274

  • 代码仓库:https://github.com/IRMVLab/DVLO


DVLO 的融合模块由两部分组成:1)首先将图像视为一组伪点,与激光雷达点进行细粒度局部融合(图像到点的结构对齐)。2) 点云也通过圆柱投影转换为伪图像,用于全局自适应融合(点到图像结构对齐)。

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 1:图像和点云的不同融合策略。之前的大多数研究都只进行全局融合或局部融合。DVLO 设计了一种局部到全局的融合策略,既能促进全局信息的交互,又能保留局部的细粒度信息。此外,还设计了双向结构对齐,以最大限度地提高模态间的互补性。

总体而言,该论文的贡献如下:

1. 提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。论文作者将图像像素视为一组伪点进行聚类,以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像,用于全局自适应融合。
2. 设计了一个纯粹基于聚类的融合模块,以获得细粒度的局部融合特征。论文中提出的方法是首次基于深度聚类的多模态融合尝试,是 CNN 和 Transformer 之外的另一种高效融合策略。

在 KITTI 里程计数据集上进行的大量实验表明,DVLO 的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外,DVLO 的融合策略还能很好地应用于其他多模态任务,如场景流估计,甚至超过了最近的 SOTA 方法 CamLiRAFT。

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 2:DVLO 流程图。

方法 

总体结构 

DVLO 的总体结构如图 2 所示。给定两个点云ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!,及其对应的来自一对连续帧的单目相机图像ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!,里程计目标是估计两个帧之间的相对位姿,包括旋转四元数ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和平移向量ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!。  

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 3:研究团队设计的局部到全局(LoGo)融合模块。

层次特征提取

点特征提取

由于原始点云的不规则性和稀疏性,首先将其投影到一个圆柱面 [30, 54] 上,以有序地组织点。其对应的二维位置为:

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

其中,x、y、z 是点云的原始三维坐标,u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。

图像特征提取

给定摄像机图像ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!,利用 [17] 中基于卷积的特征金字塔提取图像特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!。其中,ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA! 是特征图的高度和宽度。C 是图像特征的通道数。

局部融合器模块 

从图像到伪点 

给定图像特征 图片 后,首先将其重塑为伪点集合ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!,其中ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!为伪点个数。在这种情况下,图像具有与激光雷达点相同的数据结构,这有利于建立局部像素与点的对应关系,并进一步进行基于聚类的特征聚合。

伪点聚类

首先将激光雷达点投影到图像平面上,得到其在图像坐标系中对应的二维坐标 x′ 和 y′,作为聚类中心。根据 x′、y′ 对 ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!进行双线性插值,计算出中心特。

然后,根据中心特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和伪点特征 ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!的成对余弦相似度,将所有伪点划分为若干个聚类。在此,将每个伪点分配到最相似的聚类中心,从而得到 N 个聚类。为了提高效率,按照 Swin Transformer,在计算相似度时使用区域分割。

局部特征聚合

论文作者根据与聚类中心的相似度动态聚合同一聚类内的所有伪点特征。给定聚类包含第 i 个聚类中心以及周围的 k 个伪点,本地融合特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!的计算公式为:

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!


全局融合模块

由于局部特征融合仅在划分的区域内进行,因此上述局部融合模块的感受野有限。为了扩大感受野以进行充分的特征融合,论文作者在局部融合特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和点(伪图像)特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!之间引入了全局自适应融合机制。

从点到伪图像

通过前文中的圆柱投影将稀疏的激光雷达点转换为结构化的伪图像。在这种情况下,点特征 图片 的大小为ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!。这一过程将原本稀疏的非结构化点重组为密集的结构化伪图像,从而实现了下面的密集特征图与图像特征的融合。

自适应融合

给定局部融合特征 ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和点特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!,按以下方式进行自适应全局融合:

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!


ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!


ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

其中,ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!是点(伪图像)特征和局部融合特征的自适应权重,由 sigmoid 函数和 MLP 层获得。⊙表示元素与元素之间的乘积。然后,将全局融合特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!重塑为 N ×D 的大小,作为迭代姿态估计的输入。


位姿迭代估计 

通过将最粗糙层中两个帧的全局融合特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!联系起来,利用代价卷生成粗嵌入特征ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!。嵌入特征包含两个连续帧之间的相关信息。

然后,利用嵌入特征 E 上的加权嵌入掩码 M 来回归位姿变换。加权嵌入掩码 M 的计算公式为 :

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

其中,ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!是可学习的掩码。ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!是源帧中的全局融合特征。然后,通过对嵌入特征和 FC 层加权,生成四元数ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和平移向量ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

PicWish
PicWish

推荐!专业的AI抠图修图,支持格式转化

下载

在初始估计 q 和 t 之后,通过 PWCLO 中的迭代细化模块对它们进行细化,从而得到最终姿势。第 l 层的细化四元数ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!和平移矢量ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!的计算公式为:

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

其中,姿态残差ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!可根据论文中的公式在最粗糙层中通过类似过程获得。

损失函数 

四个层的网络输出 图片 和 图片 将用于计算监督损失ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!。第 l 层的训练损失函数为:

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!


其中,tgt 和 qgt 分别是地面真实平移和四元数。ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!是可学习的标量,用于缩放损失。ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!分别是 L1 和 L2 准则。那么,总训练损失为

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

其中,L 是层的总数(设为 4),ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!是代表第 l 层权重的超参数。

实验部分

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!


表 1:在 KITTI 里程计数据集上与不同里程计网络的比较

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

表 2:在 KITTI 00-10 序列上与传统视觉 - 激光雷达里程计的比较。
 

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!表 3:在 KITTI 09-10 序列上与基于学习的多模态里程计的比较。 

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

表 4:不同多模态里程计在 KITTI 里程计数据集序列 07-10 上的平均推理时间。

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 4:论文作者估计的位姿轨迹。

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 5:LOAM 和 DVLO 在真实的 KITTI 序列 07 上的轨迹结果。
ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!
图 6:设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

表 5:泛化到场景流估计任务

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

图 7:估计场景流的可视化。

消融实验

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

表 6:局部 - 全局融合网络中局部融合器(LoF)和全局融合器(GoF)的有效性

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

表 7:不同局部融合策略的消融研究
更多研究细节,可参考原论文。

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

14

2026.01.06

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1973

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

466

2024.06.04

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

20

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

5

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

25

2026.01.15

浏览器缓存清理方法汇总
浏览器缓存清理方法汇总

本专题整合了浏览器缓存清理教程汇总,阅读专题下面的文章了解更多详细内容。

2

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.7万人学习

Django 教程
Django 教程

共28课时 | 3.1万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号