模型性能评估工具介绍

在机器学习和计算机视觉领域，模型的性能评估是一个至关重要的环节。它不仅能够帮助洞察模型的整体表现，还能通过多种方式来评估模型是否已经准备好投入生产环境。Roboflow平台现在为所有付费用户提供了一个模型评估工具，该工具允许用户分析对象检测模型的混淆矩阵。这些矩阵通过比较数据集中的基准真实值（即注释）与模型的预测结果来生成。这增加了现有的功能，允许查看模型的准确性、召回率和平均精度（mAP），以及交互式网络工具，用于在图像和视频上运行推理。

通过分析模型的混淆矩阵，可以在模型投入生产之前识别出潜在的问题，并减少对“模型准备好投入生产了吗？”这个问题的猜测。在本指南中，将展示如何在Roboflow上评估计算机视觉模型。让开始吧！

在本节中，将评估一个零售冷藏柜模型的性能。该模型能够检测饮料货架上的空位数量，在零售场景中非常有用，以确保货架始终充足。在训练模型后，将安排进行模型评估。这只对使用付费Roboflow层级的客户提供。根据数据集中的图像数量，评估可能需要一段时间。所有在Roboflow上训练的新模型都会触发评估；今天之前训练的模型将不会有评估。

一旦评估完成，与模型相关的版本页面上将出现一个“查看详细模型评估”按钮：当点击此按钮时，将显示一个混淆矩阵，显示模型性能。这是零售冷藏柜模型的混淆矩阵：在左侧是模型混淆矩阵。在右侧，有一些指导显示如何阅读混淆矩阵。

从左上角到右下角的对角线行中的预测（不包括假阴性和假阳性框）是真正的阳性。这意味着图像中有一个对象，模型成功地识别了该对象。不在此行中的预测是误识别。这意味着模型为图像中的对象预测了错误的类别——或者根本没有预测类别。

模型能够准确地识别零售货架上的大多数产品和空位。成功识别了291个“产品”和26个“空位”。话虽如此，也存在一些假阳性和假阴性。假阳性指的是模型在没有该类别的实例时预测了一个类别（例如，当模型说有一个空货架时，实际上那里什么也没有）。假阴性是当模型没有识别出一个类别时（例如，当有一个空货架但模型没有识别出任何东西）。

可以通过点击混淆矩阵中的任何方格来深入了解评估结果。这将打开一个窗口，可以在其中查看模型错误分类的对象图像，以及模型正确识别对象的图像。让点击代表“产品”类别未预测的方框：可以点击左侧的任何图像，在Roboflow平台上查看注释。让点击其中一张图像：默认情况下，模型的预测结果将出现。要显示基准真实值——注释——请点击页面左上角的“基准真实值”：

0:00 / 0:08 1×

模型没有预测出两个被注释的瓶子：可以通过查看混淆矩阵中的图像来识别经常出现的模式，然后制定计划来解决问题。要解决上述问题，可以向数据集中添加更多被遮挡的瓶子，特别是图像底部的瓶子。拥有的数据越多，显示这种条件的情况，模型识别只有，例如，一个瓶盖存在的情况的能力就越大。

如果一个类别经常被误识别，请检查该类别是否在数据集中有代表。数据中是否有任何误标记的情况（Roboflow的基准真实值查看器将帮助找到这些）？如果是这样，它们可能会影响模型的质量。如果一个特定的类别经常被遗漏，请审查对象未被识别的场景。对象是否被遮挡？与训练数据中的大多数图像不同？如果是这样，请考虑向数据集中添加更具代表性的数据，以帮助模型泛化以识别正在寻找的对象。

使用Roboflow平台上新的混淆矩阵模型评估功能，可以更深入地了解模型性能。对模型评估结果的分析可以指导决定模型是否准备好投入生产。如果发现问题——例如，某个类别的假阳性数量很高——可以使用模型评估工具找到哪些图像被错误分类，并利用这些数据来指导调查。例如，假阳性数量很高的类别可能没有得到很好的代表，或者数据集中该类别的实例并不完全代表现实世界的条件。

模型评估现在会自动为付费Roboflow客户运行。还有一个开源工具CVevals，可以使用它来运行计算机视觉模型的评估，包括那些托管在Roboflow上的模型。这个工具对所有用户开放。可以在演示指南和Roboflow模型评估示例中了解更多关于CVevals的信息。

模型性能评估工具介绍