最近来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。
本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。 在自动驾驶模型方面,基础模型可以用于实现各种自动驾驶功能,例如车辆的感知、决策和控制等。通过基础模型,车辆可以获取周围环境的信息,并做出相应的决策和控制动作。 在数据增强方面,基础模型可以用于增强数据
本文链接:https://arxiv.org/pdf/2405.02288
在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。
基础模型对于自动驾驶模型增强范式
目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,注意行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。
近年来,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹,然后通过控制命令实现,相关工作已经汇总在如下表格中。
上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解解析,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练模型主干网络,并且取得了非常不错的成果。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。
基于预训练主干网络的端到端自动驾驶系统的流程图
在端到端自动驾驶的整体流程中,从原始数据中提取低级信息在一定程度上决定了后续模型性能的潜力,优秀的预训练骨干可以使模型具有更强的特征学习能力。ResNet和VGG等预训练卷积网络是端到端模型视觉特征提取应用最广泛的主干网络。这些预训练网络通常利用目标检测或分割作为提取广义特征的任务进行训练,并且他们所取得的性能已经在很多工作中得到了验证。
此外,早期的端到端自动驾驶模型主要是基于各种类型的卷积神经网络,通过模仿学习或者强化学习的方式来完成。最近的一些工作试图建立一个具有Transformer网络结构的端到端自动驾驶系统,并且同样取得了比较不错的成绩,比如Transfuser、FusionAD、UniAD等工作。
随着深度学习技术的进一步发展,底层网络架构的进一步完善和升级,具有预训练和微调的基础模型已经展现出了越来越强大的性能。由GPT代表的基础模型已经使得大模型从学习范式的规则向数据驱动的方式进行转换。数据作为模型学习关键环节的重要性是无可替代的。在自动驾驶模型的训练和测试过程中,大量的场景数据被用来使模型能够对各种道路和交通场景具有良好的理解和决策能力。自动驾驶面临的长尾问题也是这样一种事实,即存在无穷无尽的未知边缘场景,使模型的泛化能力似乎永远不足,导致性能较差。
数据增强对于提高自动驾驶模型的泛化能力至关重要。数据增强的实现需要考虑两个方面
所以,相关的研究工作主要从以上两个方面开展相关的技术研究,一是丰富现有的数据集中的数据内容,增强驾驶场景中的数据特征。二是通过模拟的方式生成多层次的驾驶场景。
现有的自动驾驶数据集主要是通过记录传感器数据然后标记数据来获得的。通过这种方式获得的数据特征通常是很低级的,同时数据集的量级也是比较差,这对于自动驾驶场景的视觉特征空间是完全不够的。语言模型表示的基础模型在高级语义理解、推理和解释能力为自动驾驶数据集的丰富和扩展提供了新的思路和技术途径。通过利用基础模型的高级理解、推理和解释能力来扩展数据集可以帮助更好地评估自动驾驶系统的可解释性和控制,从而提高自动驾驶系统的安全性和可靠性。
驾驶场景对自动驾驶来说具有重要的意义。为了获得不同的驾驶场景数据,仅依赖采集车辆的传感器进行实时采集需要消耗巨大的成本,很难为一些边缘场景获得足够的场景数据。通过仿真生成逼真的驾驶场景引起了许多研究者的关注,交通仿真研究主要分为基于规则和数据驱动两大类。
随着技术的发展,目前数据的生成方式已经逐渐由规则的方式转换为数据驱动的方式。通过高效、准确地模拟驾驶场景,包括各种复杂和危险的情况,为模型学习提供了大量的训练数据,可以有效提高自动驾驶系统的泛化能力。同时,生成的驾驶场景也可用于评估不同的自动驾驶系统和算法来测试和验证系统性能。下表是不同数据增强策略的总结。
不同数据增强策略总结
世界模型被认为是为一种人工智能模型,它包含了它运行的环境的整体理解或表示。该模型能够模拟环境做出预测或决策。在最近的文献中,强化学习的背景下提到了术语”世界模型”。这个概念在自动驾驶应用中也得到了关注,因为它能够理解和阐明驾驶环境的动态特性。世界模型与强化学习、模仿学习和深度生成模型高度相关。然而,在强化学习和模仿学习中利用世界模型通常需要标注好的数据,并且SEM2以及MILE等方法都是在监督范式中进行的。同时,也有尝试根据标记的数据的局限性将强化学习和无监督学习结合起来。由于与自监督学习密切相关,深度生成模型变得越来越流行,目前已经提出了很多工作。下图展示出来了使用世界模型增强自动驾驶模型的整体流程图。
世界模型进行自动驾驶模型增强的整体流程图
深度生成模型通常包括变分自动编码器、生成对抗网络、流模型以及自回归模型。
基于深度生成模型的强大能力,利用深度生成模型作为世界模型学习驾驶场景以增强自动驾驶已经逐渐成为研究热点。接下来我们将回顾利用深度生成模型作为自动驾驶中的世界模型的应用。视觉是人类获取有关世界信息的最直接有效的方法之一,因为图像数据中包含的特征信息极其丰富。许多以前的工作通过世界模型完成了图像生成的任务,表明世界模型对图像数据具有良好的理解和推理能力。目前整体来看,研究者们希望可以从图像数据中学习世界的内在进化规律,然后预测未来的状态。结合自监督学习,世界模型用于从图像数据中学习,充分释放模型的推理能力,为视觉域构建广义基础模型提供了一种可行的方向。下图展示了一些利用世界模型的相关工作内容汇总。
使用世界模型进行预测的工作汇总
与生成世界模型相比,LeCun通过提出联合提取和预测架构 (JEPA) 详细阐述了他对世界模型的不同概念。这是一个非生成和自监督的架构,因为它不直接根据输入数据来预测输出结果,而是将输入数据编码在一种抽象空间中进行编码完成最终的预测。这种预测方式的优点是它不需要预测关于输出结果的所有信息,并且可以消除不相关的细节信息。
JEPA是一种基于能量模型的自监督学习架构,它观察和学习世界如何工作和高度概括的规律。JEPA在自动驾驶中也有很大的潜力,有望通过学习驾驶是如何工作的来生成高质量的驾驶场景和驾驶策略。
本文全面概述了基础模型在自动驾驶应用中的重要作用。从本文调研的相关研究工作的总结和发现来看,另一个值得进一步探索的方向是如何为自监督学习设计一个有效的网络架构。自监督学习可以有效地突破数据标注的局限性,允许模型大规模的对数据进行学习,充分释放模型的推理能力。如果自动驾驶的基础模型可以在自监督学习范式下使用不同规模的驾驶场景数据进行训练,则预计其泛化能力将大大提高。这种进步可能会实现更通用的基础模型。
总之,虽然在将基础模型应用于自动驾驶方面存在许多挑战,但其具有非常广阔的应用空间和发展前景。未来,我们将继续观察应用于自动驾驶的基础模型的相关进展。
以上就是综述!全面概括基础模型对于推动自动驾驶的重要作用的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号