Roboflow 100:开源对象检测基准测试

Roboflow 100(简称RF100)是一个由社区贡献的开源对象检测基准测试,它由100个数据集组成,涵盖了7个不同的图像领域,包括224,714张图片和829个类别标签,累积超过11,170小时的标注工作。RF100的目标是创建一个易于访问、透明且开源的基准测试,用于机器学习对象检测模型,并使用野外爬取的数据集来验证模型的泛化能力。RF100是由英特尔赞助的一个项目。

可以通过遵循GitHub仓库中的说明或在Roboflow Universe中点击每个数据集的导出按钮来下载RF100。还可以通过下方的可视化工具来探索和可视化数据。相似的图片会被聚集在一起。要与完整的可视化交互,请访问Roboflow 100网站。

目标和动机

Microsoft COCO和Pascal VOC是用于训练和评估计算机视觉模型的知名数据集。COCO经常被用作计算机视觉研究的基准,为研究人员和工程师提供了一套共同的统计数据,以便理解模型性能。然而,由于数据的性质,COCO和VOC数据集的领域范围有限。在COCO或VOC上预训练的模型通常用于特定领域的任务,评估狭窄领域数据集可能不是模型在野外性能的最佳代理。例如,COCO不包含医学图像。因此,当模型在COCO上进行基准测试时,很难确定其在医学领域的性能。

创建了Roboflow 100,以帮助解决领域限制问题,为工程师和研究人员提供了一个包含224,714张图片和829个类别的模型基准测试集合。RF100是对常见对象上下文数据集的补充,而不是替代品。此外,观察到包括微软研究团队在内的研究人员,正在有机地引用社区创建的Roboflow Universe数据集,以评估模型在COCO之外的鲁棒性。因此,看到了使这个过程超越常见对象上下文,评估模型能力的机遇,RF100是第一个成果。

RF100由野外标注的图片组成,代表了人们用来训练模型的真实数据。通过开源RF100,希望帮助研究人员测试模型在不同领域中的泛化能力。RF100数据集的灵感来自于鲁棒的Objects365和野外对象检测基准测试项目。

数据收集

RF100由从Roboflow Universe中选出的100个数据集组成,Roboflow Universe是一个在线开源图像库。在包含一个数据集进入Roboflow 100基准测试之前,进行了一系列的处理步骤,包括将所有图片调整为640x640像素,消除类别歧义,将数据分为训练、验证和测试集,以及抑制代表性不足的类别(少于0.5%)。

数据概览

RF100中的数据在定义上是由计算机视觉在实践中使用的领域所决定的。在评估一组新的领域时,观察到可以对数据集进行分类的聚类。选择了七个不同的语义类别,以实现对不同领域的全面覆盖:

  • 航拍:空间、静态相机和无人机
  • 视频游戏:第一人称射击、多人在线战斗竞技场和机器人格斗
  • 显微:人类、植物和无生命的
  • 水下:水族馆和海洋
  • 文档:社交媒体和结构化
  • 电磁:夜视、X射线、热成像和MRI
  • 现实世界:室内、损坏、车辆、安全、电子、动物、植物、地质和各种人类活动

以下图片展示了每个类别的精选图片样本。由于现实世界类别的规模较大,因此采样更多。可以在Roboflow Universe中找到RF100基准测试中的所有数据集

数据集统计

在研究中,调查了不同的统计数据,包括数据集大小、边界框(bbox)面积和类别数量。这有助于更好地了解数据集中每个类别数据的代表性。以下图片按类别对统计数据进行了分组:

这幅图显示了按类别分组的数据集的不同统计数据。注意,一些类别(如航拍、视频游戏)通常比其他类别(如文档)有更小的边界框。不同类别中的平均类别数量仅为10,这意味着在实践中,用例是识别一小套对象。

为了进一步可视化数据,使用CLIP对每个图像进行了编码,并通过TSNE将降维嵌入绘制出来。

Scatter plot visualization of Roboflow-100 datasets CLIP vectors reduced to two dimensions via TSNE.

这个散点图可视化了通过TSNE将Roboflow-100数据集的CLIP向量降维到二维的结果。右上角的图例显示了每种颜色代表的数据集类别。这种可视化有助于确定收集的数据集的聚类程度。

提供了一个高性能的Web应用程序,可以帮助可视化和探索数据集。

实验

在RF100上以零样本的方式评估了YOLOv5和YOLOv7这两种流行的对象检测模型架构,以及GLIP,并报告了结果。由于目标是比较模型内部的性能,每个数据集只训练了一个实例。使用了在COCO上预训练的YOLOv5小型和YOLOv7基础,以及在O365、GoldG、CC3M、SBU上预训练的GLIP-T。YOLOv5和YOLOv7的性能相当。

在RF100上的实验结果。记录了YOLOv5和YOLOv7模型的平均mAP@.50值,以及GLIP模型的mAP@.50:.95值,每个类别的值。

在与COCO相似的数据集上,有监督训练的模型表现良好,而在语义上不同的数据集上表现最差,例如在航拍类别上。这意味着,在语义上不同的数据集上对模型进行评估是下游模型性能的有用代理,特别是在与COCO中的网络图像不同的领域设置中。

可以在Arxiv上的论文中找到RF100中每个数据集的结果。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485