Detic模型:一种新型的物体检测技术

Detic模型是由Facebook Research在2022年1月发布的一种先进的物体检测模型。它能够识别高达21,000个不同的物体类别,并且具有很高的准确性。Detic模型的一个显著特点是它不需要重新训练,这使得它成为一个高效且节省时间的解决方案。传统的物体检测通常包括定位和分类两个相互关联的任务:定位是确定图像中物体的位置,而分类则是确定物体的类别。现有的方法通常将这两个任务结合起来,并且严重依赖于所有类别的物体边界框。然而,值得注意的是,与图像分类数据集相比,检测数据集在规模和物体类别数量上都要小得多。这种差异是由于图像分类数据集更大、更易于获取,从而产生了更丰富的词汇表。

为了解决这一限制并将检测器的词汇量从几百扩展到数万个概念,Detic利用图像分类数据进行训练。通过结合图像级监督和检测监督,Detic成功地将定位和分类子问题解耦。因此,该模型能够以卓越的精度和召回率检测和分类广泛的物体。Detic是第一个已知的在所有21,000个类别的著名ImageNet数据集上训练检测器的模型。Detic是一个非常通用且全面的基线模型,适用于广泛的任务。

Detic模型架构涉及识别输入图像中物体的边界框和类别或类别。另一方面,物体识别或分类只关注确定类别名称,而不考虑边界框。传统的物体检测模型由于注释边界框的高成本而面临挑战。这种限制限制了小数据集的创建,并阻碍了仅在有限数量的类别上进行训练和检测。相比之下,物体检测需要逐图像注释标签,这是一个更快的过程,并允许创建更大的数据集。因此,训练模型以识别更多类别变得可行。然而,由于数据集缺乏边界框信息,它不能用于物体检测。

Detic模型通过在专门设计用于物体检测的数据集上训练物体检测器来克服这种困境。这种创新方法被称为弱监督物体检测(WSOD),它使得在不依赖边界框信息的情况下训练物体检测器成为可能。Detic利用半监督WSOD使用通常用于物体检测目的的ImageNet-21K数据集来训练Detic模型检测器。值得注意的是,与以前的研究不同,Detic不为物体检测器生成的边界框提供类别标签。相反,它采用了不同的方法。

对于每个检测到的边界框,Detic使用一个在广泛数据集上训练的CLIP嵌入向量。CLIP同时训练一个图像编码器和一个文本编码器,以预测批量中的(图像,文本)训练示例的正确配对。在测试期间,学习到的文本编码器嵌入目标数据集中存在的类别的名称或描述。通过使用类别的嵌入而不是固定的对象类别集,Detic建立了一个能够识别没有明确遇到任何示例的概念的分类器。这种独特的方法扩展了模型识别超出预定义类别的对象的能力,并增强了其适应各种场景和数据集的适应性。

Detic使用的ImageNet21k数据集主要用于物体识别任务。这个数据集只为整个图像而不是图像中的单个物体提供标签。尽管有这种区别,ImageNet21k拥有一个广泛的类别标签集合,涵盖了令人印象深刻的21,000个类别。此外,它包括一个庞大的数据池,由大约1400万张图像组成。为了评估Detic的性能,在训练期间使用了LVIS数据集。LVIS数据集通常用于物体检测目的,包括超过1000个类别标签,并包括大量图像,总计约120,000张。通过使用LVIS数据集进行评估,可以全面评估Detic在检测和分类各种类别的物体方面的有效性。

在本节中,将通过一系列视觉示例展示Detic实现的结果。这些视觉结果为提供了Detic性能的强大和准确性的切实一瞥,展示了其识别和分类各种物体的精确能力。从上面的图像中,可以清楚地看到Detic拥有庞大的词汇量。在桌面图像中,Detic识别了从计算机鼠标到吸管、书籍和信封等类别。所有识别出的物品的置信度阈值也在50%或更高。Detic还识别了部分遮挡的物体,例如图像底部可见的瓶子的盖子和顶部,以及被遮挡的壁挂式通风口。

Detic在视频推理中也提供了类似的结果。视频推理涉及在图像的帧中运行模型以识别视频中的物体。然后可以将这些推理信息用于各种目的(例如,时间戳记录某个特定物体在视频中何时变得可见,计算视频中存在的物体数量等)。

像Detic这样的大型基础视觉模型提供了大量未探索的机会,鼓励进一步的调查和实验。然而,重要的是要承认已经确定的某些局限性。当使用包括描述性短语的自定义词汇,如“坐在长凳上的人”时,Detic有时会难以捕捉整个上下文含义,而只关注句子中的单个词。这种局限性可能归因于Detic使用简单的文本匹配方法从标题中提取图像标签,主要训练在单个词上。

此外,Detic是一个大型模型。权重为670MB。这意味着Detic不适合在大多数边缘或实时环境中运行。然而,在几乎所有情况下,人们不需要识别Detic中的大多数21,000个类别。对于实时任务或用于边缘的模型来说,这种词汇表并不需要:一个可以识别正在寻找的确切内容的微调、特定于任务的模型更为高效。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485