GPT-4V在图像对象检测中的应用与挑战

在探讨GPT-4V在图像对象检测领域的应用潜力时,首先需要了解其基本功能。GPT-4V是一个先进的人工智能模型,旨在理解和解释图像内容。尽管GPT-4V展现出了在图像内容理解方面的潜力,但在实际的坐标定位任务中,其表现并不尽如人意。

在Roboflow团队进行的一系列测试中,发现GPT-4V在提供图像中对象位置的坐标时显得犹豫不决。这与GPT-4V在网络应用中发布时的行为有所不同,当时模型在直接提示下会返回坐标,但这些坐标并不准确。

为了进一步探索GPT-4V在对象检测方面的应用,进行了一系列的实验。在第一次测试中,要求GPT-4V检测图像中的狗,并提供与狗位置相关的x_min, y_min, x_max, 和y_max值。然而,GPT-4V返回的边界框坐标与狗的实际位置并不匹配。

在后续的测试中,注意到模型的行为与在九月份进行的原始实验有所不同。为了测试,转向了最喜欢的内部测试之一:在图像中定位狗。要求以x0, y0, x1, y1的格式返回坐标,但模型回应称无法提供帮助。

尽管如此,当以更柔和的语气提问,并且不提及“检测”时,开始得到一致的结果。尽管如此,返回的边界框仍然不准确。这表明GPT-4V在初始状态下挣扎于对象定位,并且即使在模型准确的情况下,也存在一个关键问题:许多对象检测用例都涉及到在边缘运行模型,需要高FPS。GPT-4V目前并不适合此目的,即使底层模型是准确的。

Roboflow认为,对象检测的未来在于边缘,模型在像NVIDIA Jetsons这样的设备上运行。这在制造系统中很常见:大量(通常是GPU启用的)设备用于运行推理。结果可能在设备上处理,或收集并在以后处理。在这些情况下,实时、高FPS性能至关重要。

此外,许多以业务为中心的用例涉及识别不常见的特定对象(例如产品缺陷),GPT-4V可能因网络上对象的罕见性而难以处理。例如,一个特定的汽车缺陷可能对GPT来说是不可识别的,因为对缺陷的了解是机构知识。然而,一个定制的检测模型可以识别该对象,因为它已经被训练这样做。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485