计算机视觉数据集质量保证

计算机视觉领域,数据集的质量直接影响模型训练的效果。一个高质量的数据集不仅需要包含代表性的图像,还需要经过精确的标注、预处理和数据增强。这些步骤虽然耗时耗力,但却是构建强大训练集的基础。

在训练过程中,经常会遇到训练指标不佳的情况,这时就需要反思数据集的质量。是否因为数据集中存在噪声,或者选择了错误的迭代次数,又或者是模型架构不适用?在这些问题中,将深入探讨数据集的标注质量。

在数据集标注之前,最好先检查数据集的质量。一个良好的类别平衡是成功训练的关键。如果类别不平衡,模型很容易过拟合到特定类别。通过使用数据集健康检查工具,可以确保类别的平衡,并检查标注是否准确。

例如,在Roboflow Universe上提供的自行车头盔检测项目的Health Check功能,可以帮助检查数据集的健康状况。这个功能还允许根据数据集中的特定标签搜索图像,以验证否错误地标注了图像中的物体,以及查看特定类别在训练/验证/测试分割中的标签分布。

为了提高计算机视觉模型的性能,需要确保在数据集中的每个感兴趣物体周围创建紧密的边界框,包括被遮挡的物体。被遮挡的物体是指那些部分被其他物体遮挡或仅在画面中部分出现的物体。

希望模型能够正确识别所有训练它检测的物体,无论是在本地测试还是部署到实际环境中。这就是为什么第一次就创建高质量的标注非常重要。当知道为模型提供了良好的数据时,诊断检测问题(如低置信度和错误的检测)会变得更加容易。

利用Roboflow的地面真实和模型预测,以及数据集健康检查功能,可以在训练/验证/测试分割中搜索特定类别,根据《计算机视觉图像标注的七个提示》来改进标注。

例如,在原始自行车头盔检测数据集中的示例地面真实标注。测试集中的第1张图片,共63张。更新后的地面真实标注在原始自行车头盔检测数据集中。测试集中的第1张图片,共63张。

为了提高数据质量,需要考虑被遮挡图像的标注。如果物体被部分遮挡,仍然需要对其进行标注,特别是如果想要实现对象跟踪。例如,在记录国际象棋比赛并跟踪棋子的移动时,即使白象在F1位置被白马在G1位置轻微遮挡,仍然需要完全标注白象。当白马移动并让“完整”的白象出现在跟踪摄像机视野中时,这将有助于模型将其识别为同一物体进行对象跟踪。

在对象检测数据集中,使用边界框和多边形标注棋子。如果担心标注被遮挡的物体,或者想要以一种方式标注所有物体,使得标注/标签定位在物体可见部分的轮廓上,也可以使用多边形(和边界框)来标注对象检测模型。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485