数据标注与机器学习模型性能

在构建高效模型的过程中,需要大量的数据标注工作。当前,机器学习领域中有许多服务提供商声称可以完全外包标注任务。可能还会看到各种宣传此类服务的梗图。虽然完全外包标注可能对来说是正确的选择,但在决定之前,为提供了一些需要考虑的标注因素。

标注参与度的谱系

当开始进行标注任务时,可以选择不同的参与程度。从完全自己标注到完全外包,有一系列的选择。以下是一些可能的选择:

  • 自己标注所有内容 - 亲自参与标注工作,为数据集添加每个标注。
  • 雇佣全职标注员 - 雇佣一名全职员工来完成标注工作。
  • 雇佣承包商 - 雇佣一名承包商来完成标注工作,同时可以在Roboflow中监控他们的标注进度。
  • 完全外包 - 将标注规范表和图像传递给服务提供商,例如Roboflow标注服务

让深入探讨一下标注过程中的一些考虑因素。

不到十年前,生活在一个人工智能的世界里,人们认为更多的数据总是能让模型更好。AI领域的思想领袖Andrew Ng曾在他的深度学习教科书中展示了以下图表。然而,正如许多人发现的那样,数据集的质量比其他任何事情都重要。对于大型无监督神经网络来说,上述曲线可能是正确的,但如果正在使用特定用例的自定义数据集进行模型训练,情况将会大不相同。

因为数据质量如此重要,无论是通过直接标注还是通过审核,积极参与标注过程都非常重要。

在花费大量时间与数据集打交道之前,可能很难表述出标注任务中涉及的所有细微差别。是否已经将数据集过滤到高质量的图像?类别列表是否已经确定?知道如何处理被遮挡的物体吗?许多关于数据集的具体细节将很难传递给一个黑盒服务,并且需要多次迭代周期才能确定。

请参阅指南,了解如何为外包数据标注提供高质量的指导。

外包标注者在标注意见上会有冲突,尽管可以通过他们的决定来平均,但这总是会导致比在标注完成后进行审核步骤后的数据集质量更低。根据经验,审核外包标注任务可能同样甚至比自己标注图像更加艰巨。

当在新标注的数据集上训练模型时,模型将在某些领域取得成功,而在其他领域则会遇到挑战。如果对数据集有深入的了解,将能够识别出可以调整和重做的标注过程的部分,以修复模型。还可能有想法收集额外的数据来解决手头的问题。

这引出了最重要的部分……

通过使用计算机视觉自动化工具,如Roboflow,可以在标注数据集的同时迭代训练模型,实现标签辅助或完全自动化标注工作。模型辅助标注应用模型的预测作为标签。这不仅允许更快地标注图像,而且允许在过程中深入了解模型所面临的挑战。

当感受到模型在标注中遇到的问题,并收集更多数据使模型更智能时,正在进行一种称为主动学习的过程,这是任何生产级机器学习模型的基石策略。

可以选择不同程度的参与数据集标注过程,从自己标注每张图像到完全外包标注工作。在本文中,讨论了一些可能希望更密切参与数据集的原因,包括:

  • 更好的数据而非更多的数据
  • 问题表述和任务模糊性
  • 标注者意见分歧
  • 模型解释
  • 标签辅助和主动学习
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485