利用Segment Anything 2进行图像分割

Segment Anything 2是一个先进的图像分割模型,能够帮助精确地在图像中定位对象的位置,并且能够在视频的不同帧之间跟踪同一个对象。自2023年Segment Anything的第一版发布以来,Roboflow迅速将其模型集成到产品中,以便客户能够使用这项尖端技术来解决商业问题。

在成功地将Segment Anything应用于自动多边形标注工具和计算机视觉应用之后,很高兴地宣布,已经在Roboflow生态系统中广泛集成了Segment Anything 2。通过SAM 2增强了以下功能:

  • 使用SAM 2作为标注助手,一键在图像中标注多边形;
  • 在Roboflow Workflows的多步骤计算机视觉工作流中,使用SAM 2分割图像区域;
  • 启动自己的SAM 2 API,通过专用部署发送推理请求。

在本指南中,将介绍如何将SAM 2与Roboflow结合使用。让开始吧!

由Segment Anything 2驱动的数据标注

计算机视觉项目中,标注图像是最繁琐的部分之一。尽管如此,标注质量至关重要:好的标注可以成就或破坏一个模型。去年,在产品中添加了由Segment Anything驱动的智能多边形工具。这个工具允许在图像中点击一个对象,并计算所选对象的分割掩码。这可以用来生成用于训练目标检测和分割模型的多边形标注。

现在,这个功能由SAM 2支持,它比以前的模型更快、更准确。要使用这个功能,导航到在Roboflow中拥有的任何图像数据集。点击右侧任务栏中的智能多边形光标图标,并选择由SAM 2支持的“增强”选项。然后,可以悬停在图像中的任何对象上,预览SAM 2将添加到图像中的多边形。要添加多边形,请点击想要标注的图像区域。这将把多边形标注添加到数据集中。

通过这个功能,可以比以往更快、更精确地在Roboflow中标注图像,比以前的智能多边形版本更精确。

部署Segment Anything 2 API

可以在自己的硬件上或在云中的专用部署上部署SAM 2作为API。要在自己的硬件上运行SAM 2,可以使用Roboflow Inference,这是一个开源的、高吞吐量的计算机视觉推理服务器。推理支持从CLIP到YOLOv10到SAM-2的各种模型。可以使用推理加载tiny、small、large和b_plus模型。可以计算与点相关联的最突出的掩码,并提交负提示以细化预测。

要了解如何在自己的硬件上部署SAM 2,请参考RoboflowInference SAM 2文档。此外,还可以在Roboflow专用部署上部署SAM 2。有了专用部署,可以配置CPU或GPU服务器,这些服务器可以专门用于推理用例。这消除了设置云服务器或本地GPU来运行模型的复杂性。

可以使用GPU专用部署作为API运行SAM 2。专用部署运行Roboflow推理。要了解如何部署专用部署,请查看启动帖子。

在Roboflow Workflows中使用Segment Anything 2

Roboflow Workflows允许从基于Web的应用程序构建器构建复杂的计算机视觉应用程序。如果使用专用部署运行工作流,可以将SAM 2作为工作流的一部分。可以在工作流中使用SAM 2构建一个分割模型的主动学习管道。这样的管道可以使用目标检测模型来检测对象,然后使用SAM 2为图像中的对象生成分割掩码。

可以使用标注的图像来训练一个微调的分割模型,该模型将比SAM 2运行得更快。这是基础模型的常见用例:使用它们作为主动学习工作流的一部分自动标注数据,然后训练一个可以在生产中更快运行的微调模型。要将SAM 2与Roboflow Workflows一起使用,请创建一个新的工作流,然后向项目添加一个“Segment Anything 2”块。

以下是一个使用YOLOv8模型和SAM 2的工作流示例:这个工作流使用YOLOv8模型来检测对象,然后使用SAM 2来分割对象。结果随后被可视化并返回。这里是一个工作流在包含常见对象的图像上运行的示例:可以尝试使用自己的图像来尝试这个工作流。

这个工作流旨在识别常见对象(例如汽车、杯子、手机、猫),因此将在包含常见对象的图像上表现最佳。要了解更多关于使用Roboflow构建工作流的信息,请参考Roboflow Workflows文档。

Segment Anything 2是一个尖端的图像分割模型。可以使用Segment Anything 2为图像中的对象生成分割掩码。Roboflow为在计算机视觉工作流和应用程序中使用SAM 2提供了广泛的支持。使用Roboflow,可以:

  • 使用SAM 2加快图像标注过程;
  • 通过专用部署提供SAM 2 API,用于图像分割工作流;
  • 构建使用SAM 2作为应用程序逻辑一部分的计算机视觉应用程序。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485