Grounding DINO模型详解与应用示例

大多数对象检测模型被训练来识别一个狭窄的、预定的类别集合。这种方法的主要问题是缺乏灵活性。每当想要扩展或更改可识别对象的集合时,必须收集数据、标记它,并重新训练模型。这当然既耗时又昂贵。零样本检测器希望通过在不重新训练模型的情况下检测新对象来打破这种现状。所需要做的就是改变提示,模型就会检测描述的对象。

在下面的例子中,使用Grounding DINO——最新的SOTA零样本对象检测模型,来可视化预测结果。在左侧的图像中,提示模型识别“椅子”类别——一个属于COCO数据集的类别。模型在没有任何问题的情况下成功检测到了所有这个类别的对象。在右侧的图像中,试图找到模型知识的边界,并询问狗的尾巴。这个对象当然不在任何常用的数据集中,但它还是被找到了。

Grounding DINO性能

Grounding DINO在COCO检测零样本迁移基准测试中达到了52.5 AP,而没有使用COCO的任何训练数据。在使用COCO数据进行微调后,Grounding DINO达到了63.0 AP。它在ODinW零样本基准测试中创造了新的记录,平均为26.1 AP。

GLIP T与Grounding DINO T在速度和mAP方面的比较显示了Grounding DINO的优势。

Grounding DINO的优势

零样本对象检测——Grounding DINO擅长检测训练数据中预定义类别集之外的对象。这种独特的能力使模型能够适应新对象和场景,使其具有高度的通用性和适用于各种现实世界任务。

指代表达理解(REC)——根据给定的文本描述识别和定位图像中的特定对象或区域。换句话说,不是在图像中检测人和椅子,然后编写自定义逻辑以确定椅子是否被占用,而是可以使用提示工程来要求模型仅检测有人坐着的椅子。

消除手工设计的组件,如NMS——Grounding DINO通过去除手工设计的组件,如非最大抑制(NMS),简化了对象检测流程。这简化了模型架构和训练过程,同时提高了效率和性能。

Grounding DINO架构

Grounding DINO旨在融合DINO和GLIP论文中的概念。DINO,一种基于变换器的检测方法,提供了最先进的对象检测性能和端到端优化,消除了手工制作的模块如NMS的需求。另一方面,GLIP专注于短语定位。这项任务涉及将给定文本中的短语或单词与图像或视频中的相应视觉元素关联起来,有效地将文本描述链接到它们各自的视觉表示。

文本骨干和图像骨干——使用图像骨干如Swin Transformer提取多尺度图像特征,并使用文本骨干如BERT提取文本特征。

特征增强器——在提取普通图像和文本特征后,它们被送入特征增强器进行跨模态特征融合。特征增强器包括多个特征增强器层。利用可变形自注意力来增强图像特征,而普通自注意力用于文本特征增强器。

语言引导查询选择——为了有效地利用输入文本指导对象检测,设计了一个语言引导查询选择模块,以选择与输入文本更相关的特征作为解码器查询。

跨模态解码器——开发了一个跨模态解码器来组合图像和文本模态特征。每个跨模态查询被送入自注意力层、图像交叉注意力层以组合图像特征、文本交叉注意力层以组合文本特征,以及每个跨模态解码器层中的FFN层。与DINO解码器层相比,每个解码器层都有额外的文本交叉注意力层,因为需要将文本信息注入查询以获得更好的模态对齐。

尝试Grounding DINO和示例

为了让更容易地尝试这个模型,准备了一个Jupyter笔记本,可以在Google Colab等地方测试。如前所述,Grounding DINO允许使用ROC进行精确检测。不是询问图像中的所有椅子,而是可以将搜索范围缩小到只有有人坐着的椅子,使用以下提示——“有人坐着的椅子”。

可以看到,模型不仅返回了一组缩小的椅子,还检测到了“男人”——提示中找到的另一个名词。

与GLIP一样,通过适当的提示工程可以提高预测的质量。在下面的照片中,用简单的查询——“餐巾”——不会检测到任何对象。在这种情况下,提供更多描述正在寻找的对象的详细信息,如“蓝色餐巾”和“桌子上的餐巾”,以获得所需的输出。

使用Grounding DINO的建议

如博客文章开头的表格所示,Grounding DINO比GLIP快,但仍然太慢,无法考虑实时场景。YOLO目前是安全的。

然而,该模型可以在灵活性和多功能性重要的任务中大放异彩。Grounding DINO可以成功地用于自动数据标注或用许多类别的重型模型替换。

有了REC,Grounding DINO也可以通过使用语言约束而不是复杂且容易出错的手工组件来分析检测关系,从而大大简化图像和视频处理流程。

Grounding DINO通过提供一个高度适应性和灵活的零样本检测模型,在对象检测领域树立了新的标准。模型识别训练集之外的对象以及理解语言和视觉内容的能力使其在各种现实世界任务中表现出色。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485