Google Bard与微软Bing Chat的多模态能力对比

在人工智能领域,多模态交互正逐渐成为提升用户体验的关键技术。Google Bard和微软Bing Chat作为两个领先的多模态AI平台,它们在图像输入和处理方面的能力备受关注。本文将对这两个平台进行深入的对比分析,探讨它们在图像识别、计数和分类任务中的表现,并尝试揭示它们背后的工作原理。

为了评估Google Bard的图像处理能力,使用了Roboflow Universe提供的三个不同数据集进行测试:Hard Hat Workers数据集用于人数统计,Apples数据集用于物体计数,以及ImageNet数据集用于图像描述和分类。这些测试旨在全面评估Bard在不同难度级别的任务中的表现。

在人数统计任务中,发现Bard无法对包含人的图像进行计数。这与Bing Chat的处理方式形成鲜明对比,后者虽然在处理人脸时会进行模糊处理,但Bard则完全拒绝包含人脸的图像输入。Google在避免响应包含人的图像方面表现出了极大的谨慎,这在一定程度上限制了Bard的可用性。Bard不仅拒绝任何以人为主角的图像,而且尝试拒绝任何包含人的图像,这大大减少了可以与其一起使用的图像数量。

在物体计数任务中,使用了Apples数据集来评估Bard在图像中计数苹果的能力。设计了三个不同难度的提示,以测试Bard在定量和定性推理技能以及结构化数据格式化方面的能力。尽管Bard能够完成这项任务,但其结果并不令人印象深刻。Bard在图像中识别物体数量方面遇到了很多困难,当被要求根据定性特征对数据进行结构化或排序时,这种困难进一步加剧。

在图像描述和分类任务中,向Bard展示了来自ImageNet的一系列图像,并要求它为这些图像配上标签。根据标签的精确匹配程度为每个标签打分,精确匹配的标签将获得100%的分数,而不精确匹配的标签将根据语义相似度获得0-100%的分数。在这方面,Bard的表现非常出色,平均得分为92.8%,其中有五个标签完全匹配,且变异性较低,显示出其在一致且准确地检测和传达图像内容方面的能力。尽管没有对整个数据集进行测试,但Bard在这项任务中的表现与最先进的模型结果相比仍然相当令人印象深刻。

在对GPT-4驱动的Bing Chat进行相同测试后,对这两个大型语言模型(LLMs)的性能进行了汇编和比较。在物体计数任务中,Bard与Bing的比较尤为引人注目。尽管Bard能够完成一些给定的任务,但其总体表现以及相对于Bing的表现都相当差。与Bing不同,Bard在被要求对数据进行结构化或根据定性特征对计数进行分类时,表现更加困难。

另一方面,在ImageNet分类/描述任务中,Bard的表现略优于Bing,比Bing高出6.29%。尽管如此,Bard在总体上还是比Bing表现得更差,即使不包括失败的人数统计任务。

在进行测试后,根据Bard的表现推断了其可能的工作原理。正如Google在其发布说明中所述,Bard的新图像输入功能并不是一个单一的多模态模型。相反,它基于Google Lens,该Lens使用多种Google功能和能力的组合。它集成了Google的许多产品,如搜索、翻译和购物。

虽然尚未得到确认,但相信它使用了Google Cloud的Vision API,该API在许多方面都类似于Google Lens的功能,包括其令人印象深刻的OCR准确性和识别图像内容及上下文的能力,能够根据图像内容提取文本并分配标签。

正如在Apples数据集的示例图像中看到的那样,这在一定程度上可以解释Bard在测试中出现的不准确性,它识别出了一个苹果、一个水果、一个容器和一个篮子。

在对Bard进行实验和分析后,得出结论,计算机视觉任务尚未成为其强项。正如对Bing的聊天功能得出的结论一样,Bard的主要用例可能更适合直接消费者使用,而不是计算机视觉任务。图像上下文信息,加上LLM的一般知识和Google的其他能力,可能会使其成为搜索和查找信息的非常有用的工具。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485