理解计算机视觉中的边界框

在计算机视觉领域,边界框是一种用于目标检测任务的重要工具。它通常是一个矩形框,围绕在图像中感兴趣的区域,这个区域对应于想要识别的特定对象。边界框在图像上的视觉表示,是通过坐标来定义的。在计算机视觉项目中,边界框主要在两个场景中出现:一是在标注过程中,二是在模型推理时。

边界框的定义

边界框是围绕图像中感兴趣区域绘制的矩形。这个区域应该对应于想要识别的特定对象。边界框是图像上坐标的视觉表示。在计算机视觉项目中,边界框主要在两个场景中出现:一是在标注过程中,二是在模型推理时。

标注过程中的边界框

目标检测项目中进行标注时,需要围绕感兴趣的对象绘制边界框。这些框随后会与输入图像一起作为数据,用于训练视觉模型。为了绘制数据标注中的边界框,应该使用一个标注工具。所有目标检测标注工具都支持绘制框,并且提供不同程度的实用工具来帮助更快地绘制这些框。例如,Roboflow提供了一个免费的标注工具供使用。

以下是标注过程中绘制边界框的示例,其中框围绕感兴趣的对象绘制:

边界框应该尽可能紧密地围绕对象绘制,以便每个框包含尽可能多的关于对象的细节,同时不包含太多的背景噪声。话虽如此,边界框是矩形,而许多检测模型旨在识别的对象并非矩形。因此,不可避免地会有一些背景出现在感兴趣区域。

边界框可以重叠。例如,如果正在检测一个集装箱及其ID,可以为ID绘制一个框,为更宽的集装箱绘制另一个框。训练好的模型将学会识别这两个对象。然后,可以进行计算,比如计算两个边界框的交集比。

边界框的绘制

计算机视觉模型,如YOLOv10和RT-DETR,返回与模型训练识别的对象位置相对应的坐标。这些坐标可以以各种格式出现。最受欢迎的格式是:x0, y0, x1, y1(也称为xyxy),以及;x, y, 宽度, 高度(也称为xywh)。如果决定在图像上绘制坐标——例如,为了可视化模型的表现——这个过程被称为绘制边界框。

以下是来自一个场地管理目标检测模型的预测示例:边界框被可视化,对应于场地管理目标检测模型返回的集装箱、ID和徽标检测。上面的图像是使用supervision,一个Python计算机视觉库,具有用于计算机视觉模型的实用工具进行可视化的。

计算机视觉中,“边界框”一词有两个定义。首先,边界框是在标注工具中围绕感兴趣的对象绘制的。这些注释随后被用来训练模型。其次,视觉模型的预测被绘制为输入图像上的边界框,允许可视化模型的结果。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485