在计算机视觉领域,数据集的管理和优化对于模型性能的提升至关重要。一个易于搜索和探索的数据集,可以帮助更好地筛选和整理数据,从而提高模型的准确性和效率。Roboflow平台最近推出了一系列高级数据集搜索过滤器,这些功能现已在所有Roboflow工作空间中可用。这些新功能使得在模型构建的各个阶段,从准备第一个数据集版本到在生产环境中进行增量改进,都能更好地探索和理解数据集。
新的过滤功能与Roboflow数据集搜索中现有的语义搜索能力相结合。这些能力允许通过抽象关键词(例如“集装箱”)进行搜索并找到相关图片。现在,既可以使用语义搜索进行查询,也可以通过高级过滤器缩小过滤范围。
在本指南中,将向展示如何在Roboflow应用程序中使用新的数据集搜索功能来整理用于构建计算机视觉模型的数据集。让开始吧!
设想一个场景,模型即使已经标记了许多该类别的图像,仍然难以识别某个类别。有了有效的数据集探索工具,可以检查现有的图像,回答诸如“图像是否过于相似?”和“是否有未标记的此类别的实例?”等问题。
Roboflow的新搜索功能使得回答这些问题——以及对数据集的许多其他问题——变得前所未有地容易。在Roboflow应用程序中,现在可以通过以下方式搜索图像:
可以使用AND或OR语句组合搜索功能,构建复杂的查询来探索数据集。以下是可以使用新的数据集搜索功能回答的一些问题:
让逐步了解如何使用数据集搜索,然后展示一些示例。要查看Roboflow中搜索功能的完整参考列表,请参考。
要访问新的数据集搜索,请在工作区项目侧边栏的图像选项卡上点击。然后,在页面上方的图像搜索栏中点击。这个搜索栏启用了新数据集搜索功能。
当打开搜索栏时,会出现几个示例“操作符”。操作符是可以查询的属性。让运行一些查询。对于本指南,将使用,该数据集包含超过120,000张图像。首先,假设想要找到包含猫和狗的所有图像,这两个类别在数据集中。可以使用以下查询找到它们:
class:cat AND class:dog
在上面的例子中,有许多标记了猫的图像。可以进行更具体的查询,并按分割(例如,只显示训练测试集中标记了猫和狗的图像)、文件名以及其他上述属性进行过滤。
让再做一个测试。假设模型在识别猫方面表现不佳。可以运行一个查询,寻找所有不包含“猫”注释但确实包含猫的图像。可以通过利用Roboflow搜索功能中内置的语义搜索能力来实现这一点。
当指定要搜索的关键词(例如“猫”)时,Roboflow将根据与该关键词的相关性对搜索结果进行排序。使用向量嵌入来实现这一点。为文本查询(例如“猫”)计算一个嵌入,并将其与数据集中的图像嵌入进行比较。然后,返回嵌入最接近查询的结果。
以下查询将让找到遗漏了标记猫的图像:
-class:cat cat
此查询排除了所有包含“猫”类别的图像,然后搜索与文本查询“猫”相关的图像。以下是结果:
可以点击图像查看每张图像:
在这张图像中,有一个“餐桌”标签,但没有猫的标签。在标记过程中遗漏了一个注释。可以修正注释,并为不同的类别重复此过程,以清理数据集。
假设想要寻找包含“手机”类别并且图像中至少有三个注释的图像。可以使用以下查询:
class:"cell phone" min-annotations:3
搜索查询成功返回了包含类别“手机”并且至少有三个注释的图像。注意:min-annotations搜索标志计算所有注释,而不是特定类别的注释。
以下是在推出此功能时可用的搜索过滤器。有关Roboflow中高级数据集搜索的最新更新,请参阅。
like-image:
:按CLIP测量的语义相似性排序。tag
:按用户提供的标签过滤。filename
:运行搜索以查找匹配提供的文件名的文件名。在查询的开头和结尾使用*进行部分匹配。split
:按分割(训练、测试、有效)过滤。job:
:显示具有提供的作业ID的图像。min-width:X
:显示宽度小于X的图像。max-width:X
:显示宽度大于X的图像。min-height:X
:显示高度小于X的图像。max-height:X
:显示高度大于X的图像。min-annotations:X
:过滤图像,使其注释数量超过指定数量。max-annotations:X
:显示注释数量少于指定数量的图像。class:CLASS
:显示至少有一个注释与提供的标签匹配的图像。-class:CLASS
:显示不包含特定类别的图像。可以使用AND或OR语句组合上述属性。
现已可用的Roboflow新搜索功能为搜索和探索数据集提供了强大的功能套件。通过上述功能,可以找到符合特定标准