GPT-4V在图像对象检测中的应用与挑战

在探讨GPT-4V在图像对象检测领域的应用潜力时，首先需要了解其基本功能。GPT-4V是一个先进的人工智能模型，旨在理解和解释图像内容。尽管GPT-4V展现出了在图像内容理解方面的潜力，但在实际的坐标定位任务中，其表现并不尽如人意。

在Roboflow团队进行的一系列测试中，发现GPT-4V在提供图像中对象位置的坐标时显得犹豫不决。这与GPT-4V在网络应用中发布时的行为有所不同，当时模型在直接提示下会返回坐标，但这些坐标并不准确。

为了进一步探索GPT-4V在对象检测方面的应用，进行了一系列的实验。在第一次测试中，要求GPT-4V检测图像中的狗，并提供与狗位置相关的x_min, y_min, x_max, 和y_max值。然而，GPT-4V返回的边界框坐标与狗的实际位置并不匹配。

在后续的测试中，注意到模型的行为与在九月份进行的原始实验有所不同。为了测试，转向了最喜欢的内部测试之一：在图像中定位狗。要求以x0, y0, x1, y1的格式返回坐标，但模型回应称无法提供帮助。

尽管如此，当以更柔和的语气提问，并且不提及“检测”时，开始得到一致的结果。尽管如此，返回的边界框仍然不准确。这表明GPT-4V在初始状态下挣扎于对象定位，并且即使在模型准确的情况下，也存在一个关键问题：许多对象检测用例都涉及到在边缘运行模型，需要高FPS。GPT-4V目前并不适合此目的，即使底层模型是准确的。

Roboflow认为，对象检测的未来在于边缘，模型在像NVIDIA Jetsons这样的设备上运行。这在制造系统中很常见：大量（通常是GPU启用的）设备用于运行推理。结果可能在设备上处理，或收集并在以后处理。在这些情况下，实时、高FPS性能至关重要。

此外，许多以业务为中心的用例涉及识别不常见的特定对象（例如产品缺陷），GPT-4V可能因网络上对象的罕见性而难以处理。例如，一个特定的汽车缺陷可能对GPT来说是不可识别的，因为对缺陷的了解是机构知识。然而，一个定制的检测模型可以识别该对象，因为它已经被训练这样做。

GPT-4V在图像对象检测中的应用与挑战

视觉提示注入攻击与防御策略

深度学习硬件性能对比

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

GPT-4V在图像对象检测中的应用与挑战

视觉提示注入攻击与防御策略

深度学习硬件性能对比

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379