目标识别技术详解

目标识别技术是计算机视觉领域的一个重要分支,它涉及到在图像中识别和定位不同的对象。这项技术可以应用于图像描述、数据分析等多种场景。通过使用计算机视觉模型,可以检测图像中的对象;每个模型都可以被训练来识别不同的对象。

在目标识别领域,主要有两种类型的模型:零样本(zero-shot)模型和微调(fine-tuned)模型。零样本模型是大型预训练模型,能够在不需要额外训练的情况下识别图像中的一组对象。这些模型可能在识别常见类别(如人)方面表现良好,但在识别更不常见的类别(如产品缺陷)方面可能会遇到困难。

另一方面,微调或定制模型则更小,它们被训练来识别一组特定的类别。这与零样本模型旨在识别的广泛类别形成对比。例如,微调模型可能被训练来识别特定汽车零件上的划痕,或者区分传送带上的不同包裹类型。

零样本模型通常需要比微调模型更多的计算能力,因为它们是在大量数据上训练的,并且旨在识别大量的类别。

目标识别的应用案例

在图像中找到特定对象对于无数应用来说都是非常有用的。例如,可以使用目标识别来:计算场地中的运输集装箱数量、识别进入建筑工地特定区域的人、识别并标记产品缺陷、计算库存室中的产品数量等等。

通过目标识别,可以在条件发生时自动触发业务逻辑。这可能意味着在识别到对象(例如缺陷)时执行某些操作,或者在没有识别到对象(例如生产线上应该存在但不存在的罐头)时执行操作。

让通过一个目标识别的例子来说明。考虑以下图像:在这个图像中,使用微调的物流计算机视觉模型识别了不同的对象。“微调模型”是一个系统,它被训练来识别不同的对象。在上面的例子中,使用了一个物流模型。这个模型被训练来识别20种不同的对象,从头盔到运输集装箱到人。

目标识别模型返回:对象的位置、被识别的类别以及模型对预测正确性的置信度。这样的模型可以用于物流和安全项目,例如计算场地中的运输集装箱数量或确保所有工人都戴着安全帽。

目标识别模型和架构

模型架构描述了模型的结构。模型架构用于训练可以识别不同对象的视觉模型。You Only Look Once (YOLO) 是当今最常用的目标识别架构之一,以其卓越的准确性而闻名。

YOLOv8,由 Ultralytics 开发,是YOLO类别中一个知名的模型,被全球公司用来识别对象。YOLOv8 的性能大大超过了由 Ultralytics 开发的前一个 YOLO 模型 YOLOv5。可以在 YOLOv8 指南中了解更多关于 YOLOv8 及其工作原理的信息。

还有其他的模型架构。Transformer 是许多知名视觉模型背后的技术,例如用于目标检测的 OWLv2 和用于图像分类的 CLIP。此外,卷积神经网络(CNN)已在一系列目标检测架构中使用。例如,R-CNN 和 Faster R-CNN 用于目标识别。

如何识别对象

要使用计算机视觉识别对象,可以:使用别人训练的与用例相关的微调模型,或者使用零样本模型;训练自己的模型。使用别人训练的微调模型是一个很好的起点,允许在不训练自己的视觉模型的情况下探索计算机视觉。

Roboflow Universe 拥有超过 50,000 个预训练的视觉模型,可以使用这些模型来识别一系列对象。以下是一些不同的识别模型,可以使用:检测太阳能电池板、剪刀石头布检测、识别零售冷却器中的空位、识别足球场上的球员、区分猫的品种。

可以使用 Roboflow 的交互式网络界面在浏览器中使用上述所有模型。可以上传图像进行测试,使用网络摄像头,或者粘贴图像或视频 URL。还可以在自己的硬件上运行模型,允许将模型部署到边缘,用于构建启用视觉的应用程序。

还可以训练自己的检测模型。如果找不到现有的模型来识别想要找到的对象,或者如果正在识别不常见的对象(例如特定产品、缺陷),这是理想的选择。要创建一个目标识别模型,需要:收集代表用例的数据。

在每张图像中注释感兴趣的对象,通过在每个感兴趣的对象周围绘制紧密的框来注释。审查注释以确保它们的准确性。准备一个将图像分割为训练数据集、测试集和验证集的数据集。训练数据集用于训练,测试集用于测试,验证集用于验证模型性能。

使用像 YOLOv8 这样的架构训练视觉模型。在测试数据集的图像上测试模型,或在新图像上测试。Roboflow 平台提供了一个端到端的解决方案,可以使用它来训练视觉模型。有了 Roboflow,可以在一个下午的时间里,从一堆未标记的图像到一个微调模型。

开始使用 Roboflow。

目标识别,也称为目标检测,涉及在图像中识别特定对象。最常见的两种目标识别模型是零样本和微调。零样本模型是在大型数据集上训练的模型,可以识别广泛的常见类别。微调模型是较小的模型,被训练来识别有限的类别集合。

可以使用 Roboflow 来训练计算机视觉模型。Roboflow 提供了一个直观的网络界面,用于模型开发的各个步骤,从标记图像到训练和部署模型。Roboflow 还提供了一个 API,可以使用它来部署模型。这个 API 为全球的公司提供了数百万次模型推理。还可以将模型部署到各种边缘设备上,例如 NVIDIA Jetson 或 Raspberry Pi。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485