YOLO-World是一个创新的零样本对象检测模型,它通过使用基于卷积神经网络(CNN)的YOLO架构,实现了快速的对象检测功能。这种模型的设计初衷是为了解决现有零样本对象检测模型在速度上的局限性。与使用Transformers架构的其他先进模型相比,YOLO-World的架构更为轻量级,因此检测速度更快。
在最新的开放词汇方法中,YOLO-World在速度和准确性方面的表现尤为突出。在NVIDIA V100上进行的LVIS数据集测试中,YOLO-World与其他模型进行了比较。根据YOLO-World的论文,该模型在保持几乎相同准确性的同时,比领先的零样本检测器快20倍,体积小5倍。
传统的对象检测模型,例如Faster R-CNN、SSD和YOLO,都是基于预定义的类别集合来识别对象。这些模型通常被训练来识别特定数据集中的对象,例如COCO数据集中的80个类别。这种限制使得这些模型只能应用于与训练数据范围相匹配的场景。
为了扩展或更改可识别的类别集合,需要在定制的数据集上重新训练或微调模型,以适应新的类别。而作为对固定词汇检测器局限性的回应,开放词汇对象检测(OVD)模型旨在识别超出预定义类别的对象。早期的尝试,如GLIP和Grounding DINO,专注于利用大规模的图像-文本数据来扩展训练词汇,从而实现对新对象的检测。
YOLO-World在研究论文《YOLO-World: Real-Time Open-Vocabulary Object Detection》中被介绍,它在开放词汇对象检测领域展示了显著的进步。YOLO-World证明了轻量级检测器,如YOLO系列中的检测器,能够实现强大的开放词汇性能。这对于需要效率和速度的实际应用场景尤为重要,例如边缘应用。
YOLO-World具有grounding能力,可以理解提示中的上下文以提供检测。由于模型已经使用图像-文本对和grounded图像进行了训练,因此无需在特定类别上训练模型。模型已经学会了如何处理任意提示——例如,“穿白色衬衫的人”——并将其用于检测。
YOLO-World的架构由三个关键元素组成:基于Ultralytics YOLOv8的YOLO检测器;由OpenAI的CLIP预训练的Transformer文本编码器;以及执行图像特征和文本嵌入之间多级跨模态融合的可重参数化视觉-语言路径聚合网络(RepVL-PAN)。
图像特征和文本嵌入之间的融合是通过Text-guided Cross Stage Partial Layer (T-CSPLayer)实现的:它建立在YOLOv8架构中使用的C2f层之上,通过将文本指导添加到多尺度图像特征中来实现。这是通过Max Sigmoid Attention Block实现的,该模块根据文本指导和图像的空间特征之间的交互计算注意力权重。然后,这些权重被应用于调制特征图,使网络能够更多地关注与文本描述相关的区域。