在构建高效模型的过程中,需要大量的数据标注工作。当前,机器学习领域中有许多服务提供商声称可以完全外包标注任务。可能还会看到各种宣传此类服务的梗图。虽然完全外包标注可能对来说是正确的选择,但在决定之前,为提供了一些需要考虑的标注因素。
当开始进行标注任务时,可以选择不同的参与程度。从完全自己标注到完全外包,有一系列的选择。以下是一些可能的选择:
让深入探讨一下标注过程中的一些考虑因素。
不到十年前,生活在一个人工智能的世界里,人们认为更多的数据总是能让模型更好。AI领域的思想领袖Andrew Ng曾在他的深度学习教科书中展示了以下图表。然而,正如许多人发现的那样,数据集的质量比其他任何事情都重要。对于大型无监督神经网络来说,上述曲线可能是正确的,但如果正在使用特定用例的自定义数据集进行模型训练,情况将会大不相同。
因为数据质量如此重要,无论是通过直接标注还是通过审核,积极参与标注过程都非常重要。
在花费大量时间与数据集打交道之前,可能很难表述出标注任务中涉及的所有细微差别。是否已经将数据集过滤到高质量的图像?类别列表是否已经确定?知道如何处理被遮挡的物体吗?许多关于数据集的具体细节将很难传递给一个黑盒服务,并且需要多次迭代周期才能确定。
请参阅指南,了解如何为外包数据标注提供高质量的指导。
外包标注者在标注意见上会有冲突,尽管可以通过他们的决定来平均,但这总是会导致比在标注完成后进行审核步骤后的数据集质量更低。根据经验,审核外包标注任务可能同样甚至比自己标注图像更加艰巨。
当在新标注的数据集上训练模型时,模型将在某些领域取得成功,而在其他领域则会遇到挑战。如果对数据集有深入的了解,将能够识别出可以调整和重做的标注过程的部分,以修复模型。还可能有想法收集额外的数据来解决手头的问题。
这引出了最重要的部分……
通过使用计算机视觉自动化工具,如Roboflow,可以在标注数据集的同时迭代训练模型,实现标签辅助或完全自动化标注工作。模型辅助标注应用模型的预测作为标签。这不仅允许更快地标注图像,而且允许在过程中深入了解模型所面临的挑战。
当感受到模型在标注中遇到的问题,并收集更多数据使模型更智能时,正在进行一种称为主动学习的过程,这是任何生产级机器学习模型的基石策略。
可以选择不同程度的参与数据集标注过程,从自己标注每张图像到完全外包标注工作。在本文中,讨论了一些可能希望更密切参与数据集的原因,包括: