yolov12:兼顾速度与精度的新一代实时目标检测器
AIxiv专栏持续报道全球顶尖AI研究成果。本文介绍由纽约州立大学布法罗分校和中国科学院大学的研究人员合作完成的最新研究——YOLOv12,该模型在保持实时性的前提下,显著提升了目标检测精度。
YOLO系列模型一直以其速度著称,但以往版本对Transformer中高效的注意力机制应用有限,主要原因是注意力机制的高计算复杂度难以满足实时性要求。YOLOv12突破了这一瓶颈,在性能上取得了显著提升。
论文链接:https://www.php.cn/link/cea82cba7b2d06851ba0448f43b1fdc1 代码链接:https://www.php.cn/link/409072cb60e202d2797a91e395909240
核心改进
YOLOv12的核心改进在于引入了高效的区域注意力模块(Area Attention, A2)和残差高效层聚合网络(R-ELAN),并对传统注意力机制架构进行了优化。
A2模块通过简单的特征图划分,有效降低了注意力机制的计算复杂度,提升了计算速度,同时保持了较大的感受野。
R-ELAN则在原始ELAN的基础上,加入了残差连接和缩放技术,优化了梯度流动,并重新设计了特征聚合方法,提高了模型的优化效率。
此外,YOLOv12还采用了FlashAttention解决内存访问问题,移除位置编码以简化模型,并调整了MLP ratio,减少了堆叠块的深度,从而提升整体效率。
实验结果
在COCO数据集上的实验结果显示,YOLOv12在不同规模的模型(N、S、M、L、X)上均取得了优于现有YOLO系列模型和RT-DETR的性能,同时保持了极高的推理速度。 YOLOv12在参数量和CPU推理速度方面也实现了显著突破,在精度-参数量平衡方面表现出色。
结论
YOLOv12通过巧妙地结合注意力机制和高效的网络结构设计,在实时目标检测领域取得了显著进展,为未来实时目标检测器的研究提供了新的方向。
以上就是YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号