多模态查询与GPT-4在Bing中的应用

多模态查询的兴起

多模态查询结合了文本和图像,使得用户可以通过上传图片来获取信息。尽管这种查询方式在公众中还未广泛使用,但微软已经开始在其Bing聊天功能中逐步推出图像输入选项。

GPT-4在Bing中的应用

在GPT-4首次发布时,推测它在处理非结构化定性理解任务(如描述、回答问题和概念理解)方面将表现出色,但在提取精确的结构化信息(如边界框)方面可能会遇到困难,并且对于定位、计数和姿态估计任务的表现尚不确定。

Bing的聊天功能自五月发布以来,使用GPT-4进行文本回复,并由微软广告和网络服务首席执行官Mikhail Parakhin确认,Bing的图像输入功能也由GPT-4提供支持。

测试Bing的多模态能力

为了定性评估Bing的性能,使用来自Roboflow Universe的三个不同公开数据集的图像向Bing提问,以测试其多模态能力。测试包括计数人员、计数对象和图像描述/分类。

计数人员

首先使用硬帽工人数据集测试图像中人数的计数。计算机视觉爱好者知道,计数对象并非易事,即使使用定制训练的模型,这也是一个难以解决的问题。为了测试模型的准确性和可变性,编写了四个不同复杂度的提示。

发现模型在计数图像中的人物数量方面表现不佳。令人惊讶的是,要求模型以简单结构化格式(以JSON形式)提供答案比大多数其他提示效果更好。尽管如此,Bing无法提取确切位置或边界框,要么产生虚构的边界框,要么根本不提供答案。

计数对象

在前一个测试中观察到什么表现良好,什么表现不佳之后,再次测试了GPT-4,但这次是在一个苹果对象检测数据集上。了解到,具有相同预期结果的不同措辞的提示对准确性的影响很小,但不同的格式确实有影响。还了解到,无法提取精确数据,因此放弃了这一点。

从这次学习中,编写了三个新的提示,并用十个随机选择的图像测试了这三个提示。这次尝试比人员计数任务表现得更好。提高的准确性可能源于前面提到的模糊人脸。值得注意的是,在这项任务中,Bing在定性和定量数据提取方面都更成功,能够根据定性特征计数对象。

图像描述/图像分类

对于最终测试,决定测试ImageNet,这是一个流行的图像分类和对象识别数据集。ImageNet拥有超过1400万张图像,是许多图像分类模型的基准数据集。每张图像都标记有一个千分之一的类别。

为了目的,随机选择了20个类别,每个类别随机选择一张图像来测试每个提示。与其它测试不同,这次测试将获得一个语义相似性分数,即两个词在意义上有多相似的0-1(或0-100%)的分数。100%将意味着它完全相同。

ImageNet测试的结果显示,Bing的平均准确率约为86.5%,有50.0%的尝试获得了100%的准确率,另一半平均为73.0%。高平均准确率,加上对不完美结果的高准确率,表明了高水平的图像理解和图像到文本用例的良好潜力。

Bing多模态的关键要点

Bing的新图像输入功能有几个优势,比现有的类似替代品表现得更好。话虽如此,它的使用有明显的缺点,以及在其他类型的计算机视觉可能表现得更好的地方。

Bing聊天(GPT-4)擅长什么

Bing聊天模型的一个优势是其能够识别给定图像中的定性特征,例如情境和细微差别。虽然大多数计算机视觉模型只能识别孤立的特定标记对象,但GPT-4能够识别并描述图像中项目之间的交互、关系和细微差别。

将视觉提示集成到聊天格式中,以及其他Bing服务中,使其作为消费品的使用更加多样化和灵活。当使用具有更多元素的图像时,与Bing的集成变得更加清晰,它已经开始集成其他微软服务,如Bing翻译。

Bing聊天模型对图像背后的复杂细微差别的理解,以及在尝试零样本分类时的高准确率,以及交互能力,使其非常适合许多消费者用例。这些包括识别和命名日常对象、数字化图像,甚至是辅助用途,如向听力困难的人描述图像。

Bing聊天(GPT-4)表现不佳的地方

Bing新功能的使用有明显的局限性,特别是在需要定量数据的用例中。

Bing聊天当前能力的一个主要缺点是一致且准确地从图像中提取细节和结果。尽管它可以像在第一和第二个测试中看到的那样格式化数据,但这些数据的准确性通常是不可靠的。

语言模型的不一致性也可能使其难以在工业或产品设置中使用,其中不可预测的行为可能是有问题的或禁止的。例如,偶尔模型会以完全出乎意料和不熟悉的形式回答相同的问题。

在计数时,Bing聊天会压倒性地偏好12作为计数,尽管实际计数完全错误,而计数单个项目或人员在测试期间总是正确的。

GPT-4会取代传统的计算机视觉吗?

目前,由于GPT-4的图像功能尚未公开,Bing的多模态功能尚未完全推出,特定任务的计算机视觉模型仍然远远优于GPT-4。

GPT-4多模态本身的主要用例可能是一般消费者使用,而不是工业级计算机视觉任务。如果模型得到改进并且有API可用,有一天多模态GPT工具可能成为计算机视觉工作流程的一部分。一个可能的可能性是这项技术被用于零样本图像到文本、一般图像分类和分类,因为GPT-4在没有训练的情况下在图像描述和分类任务上表现非常好。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485