模型性能评估工具介绍
在机器学习和计算机视觉领域,模型的性能评估是一个至关重要的环节。它不仅能够帮助洞察模型的整体表现,还能通过多种方式来评估模型是否已经准备好投入生产环境。Roboflow平台现在为所有付费用户提供了一个模型评估工具,该工具允许用户分析对象检测模型的混淆矩阵。这些矩阵通过比较数据集中的基准真实值(即注释)与模型的预测结果来生成。这增加了现有的功能,允许查看模型的准确性、召回率和平均精度(mAP),以及交互式网络工具,用于在图像和视频上运行推理。
通过分析模型的混淆矩阵,可以在模型投入生产之前识别出潜在的问题,并减少对“模型准备好投入生产了吗?”这个问题的猜测。在本指南中,将展示如何在Roboflow上评估计算机视觉模型。让开始吧!
在本节中,将评估一个零售冷藏柜模型的性能。该模型能够检测饮料货架上的空位数量,在零售场景中非常有用,以确保货架始终充足。在训练模型后,将安排进行模型评估。这只对使用付费Roboflow层级的客户提供。根据数据集中的图像数量,评估可能需要一段时间。所有在Roboflow上训练的新模型都会触发评估;今天之前训练的模型将不会有评估。
一旦评估完成,与模型相关的版本页面上将出现一个“查看详细模型评估”按钮:当点击此按钮时,将显示一个混淆矩阵,显示模型性能。这是零售冷藏柜模型的混淆矩阵:在左侧是模型混淆矩阵。在右侧,有一些指导显示如何阅读混淆矩阵。
从左上角到右下角的对角线行中的预测(不包括假阴性和假阳性框)是真正的阳性。这意味着图像中有一个对象,模型成功地识别了该对象。不在此行中的预测是误识别。这意味着模型为图像中的对象预测了错误的类别——或者根本没有预测类别。
模型能够准确地识别零售货架上的大多数产品和空位。成功识别了291个“产品”和26个“空位”。话虽如此,也存在一些假阳性和假阴性。假阳性指的是模型在没有该类别的实例时预测了一个类别(例如,当模型说有一个空货架时,实际上那里什么也没有)。假阴性是当模型没有识别出一个类别时(例如,当有一个空货架但模型没有识别出任何东西)。
可以通过点击混淆矩阵中的任何方格来深入了解评估结果。这将打开一个窗口,可以在其中查看模型错误分类的对象图像,以及模型正确识别对象的图像。让点击代表“产品”类别未预测的方框:可以点击左侧的任何图像,在Roboflow平台上查看注释。让点击其中一张图像:默认情况下,模型的预测结果将出现。要显示基准真实值——注释——请点击页面左上角的“基准真实值”:
0:00 / 0:08 1×
模型没有预测出两个被注释的瓶子:可以通过查看混淆矩阵中的图像来识别经常出现的模式,然后制定计划来解决问题。要解决上述问题,可以向数据集中添加更多被遮挡的瓶子,特别是图像底部的瓶子。拥有的数据越多,显示这种条件的情况,模型识别只有,例如,一个瓶盖存在的情况的能力就越大。
如果一个类别经常被误识别,请检查该类别是否在数据集中有代表。数据中是否有任何误标记的情况(Roboflow的基准真实值查看器将帮助找到这些)?如果是这样,它们可能会影响模型的质量。如果一个特定的类别经常被遗漏,请审查对象未被识别的场景。对象是否被遮挡?与训练数据中的大多数图像不同?如果是这样,请考虑向数据集中添加更具代表性的数据,以帮助模型泛化以识别正在寻找的对象。
使用Roboflow平台上新的混淆矩阵模型评估功能,可以更深入地了解模型性能。对模型评估结果的分析可以指导决定模型是否准备好投入生产。如果发现问题——例如,某个类别的假阳性数量很高——可以使用模型评估工具找到哪些图像被错误分类,并利用这些数据来指导调查。例如,假阳性数量很高的类别可能没有得到很好的代表,或者数据集中该类别的实例并不完全代表现实世界的条件。
模型评估现在会自动为付费Roboflow客户运行。还有一个开源工具CVevals,可以使用它来运行计算机视觉模型的评估,包括那些托管在Roboflow上的模型。这个工具对所有用户开放。可以在演示指南和Roboflow模型评估示例中了解更多关于CVevals的信息。