YOLOv9是由王建尧及其团队开发的最新计算机视觉架构,专注于目标检测和图像分割。在MS COCO数据集的基准测试中,YOLOv9的模型架构在平均精度(mAP)上超越了YOLOv8、YOLOv7和YOLOv5等流行模型。YOLOv9引入了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)等突破性概念,以提升目标检测任务的效率和精确度。
PGI通过在深度网络中保留关键特征和生成可靠的梯度来有效解决数据丢失问题,确保了最佳训练结果。GELAN则通过最大化参数利用和计算效率,使YOLOv9在多种应用中表现出色。YOLOv9的这些创新使其在实时目标检测领域树立了新的精度和速度基准。
YOLOv9框架提出了一种新方法来解决深度学习中目标检测的基本障碍,重点是对抗信息丢失和提高网络效率。在下面的部分中,将探索YOLOv9的四个关键组成部分:信息瓶颈原理,以及解决信息瓶颈的三种方法:可逆函数、PGI和GELAN。
信息瓶颈原理解释了数据在神经网络中转换时信息丢失的过程。这个原理通过信息瓶颈方程量化了原始数据和转换数据之间的互信息减少,随着数据通过深度网络的层,它经历了对精确预测至关重要的信息丢失。这种丢失可能导致不稳定的梯度并阻碍模型收敛。
通常的补救措施是扩大模型以增强其数据转换能力,从而保留更多信息。然而,这种策略未能解决在非常深的网络中梯度不稳定的问题。接下来的部分探讨了可逆函数如何提供更可行的解决方案。
可逆函数是对抗信息瓶颈的理论解药。嵌入在神经网络中的可逆函数保证了在整个数据转换过程中信息零丢失。通过使数据转换可逆,这些函数确保原始输入数据可以从网络的输出中精确重建。
利用可逆函数允许网络在所有层中保留全部输入信息,从而为模型细化提供更可靠的梯度计算。可逆函数提供了许多优势,它们背离了传统对深度网络的理解,特别是当面对模型并非天生设计为深度的复杂问题时。
在引入可逆函数后,出现了对新的深度神经网络训练的需求,这种训练不仅要为模型更新产生可靠的梯度,还要适应浅层和轻量级神经网络。可编程梯度信息(PGI)作为解决方案出现,包括一个用于推理的主分支、一个用于精确梯度计算的辅助可逆分支,以及多级辅助信息,有效地解决了深度监督挑战,而不会施加额外的推理开销。
在YOLOv9框架中探索PGI揭示了其复杂的设计,旨在增强模型训练和效率。PGI结合了一个辅助监督节点,专门针对深度神经网络中的信息瓶颈,优先考虑精确高效的梯度反向传播。PGI通过整合三个组件发展,每个组件在模型架构中都扮演着独特但相互联系的角色。
在YOLOv9中实施PGI后,出现了对更精细架构的明确需求,以实现最大准确性。这就是广义高效层聚合网络(GELAN)的用武之地。
GELAN引入了一种独特的设计,旨在补充PGI框架,从而增强模型处理和从数据中学习洞察力的能力。当PGI解决在深度神经网络中保留关键信息的挑战时,GELAN通过提供一种多功能且高效的结构进一步推进了这一基础工作,能够适应多样化的计算块。
在YOLOv9中,GELAN结合了CSPNet的梯度路径规划和ELAN在推理期间的速度优化的最佳品质。这种多功能架构无缝集成了这些特性,提升了YOLO家族标志性的实时推理能力。GELAN是一个轻量级框架,强调快速推理,同时保持准确性,从而扩大了计算块的实用性。
在MS COCO数据集上对现有方法的实时目标检测器进行比较。在这些方法中,最有效的包括YOLO MS-S用于轻量级模型,YOLO MS用于中等模型,YOLOv7 AF用于通用模型,以及YOLOv8-X用于大型模型。
与YOLO MS用于轻量级和中等模型相比,YOLOv9的参数减少了约10%,计算需求减少了5-15%,同时平均精度(AP)提高了0.4-0.6%。与YOLOv7 AF相比,YOLOv9-C的参数减少了42%,计算减少了22%,同时实现了相似的AP(53%)。最后,与YOLOv8-X相比,YOLOv9-E的参数减少了16%,计算减少了27%,AP显著提高了1.7%。
YOLOv9标志着与以前YOLO模型相比,实时目标检测性能的进步,显著提高了效率、准确性和多功能性。通过PGI和GELAN等突破性方法,YOLOv9不仅解决了关键挑战,还为该领域的未来努力树立了新的标准。
如何使用自定义数据集训练YOLOv9(博客文章)
YOLOv9训练指南(视频)