在2024年2月8日,Google宣布推出了Gemini高级版,这是他们Gemini系列模型中最先进的版本。此次发布伴随着两个重要的公告:(i) Google去年发布的Bard产品现在更名为Gemini,从而整合了Google的多模态模型产品线;(ii) Gemini现在可以在移动应用中使用。尽管如此,目前尚不清楚Gemini的确切可用范围。团队在欧洲的成员能够访问Gemini,但英国的一名团队成员即使使用个人Google账户也无法访问Gemini。
团队已经对Gemini高级版进行了与去年12月对Gemini进行的相同测试,以评估其性能。这些测试涵盖了从视觉理解到文档OCR的各种视觉任务。总体而言,与尝试过的其他多模态模型相比,Gemini高级版的表现相对较差,包括去年12月发布的Gemini版本。在基础任务上看到了退步:视觉问答(VQA)和文档OCR。让更深入地了解。
评估了Gemini在一系列任务上的表现。以下是对四个独立任务的评估:视觉问答(VQA)、光学字符识别(OCR)、文档OCR和目标检测。使用了与评估其他LMMs相同的图像和提示,这些是在GPT-4视觉替代品和Google Gemini初次印象帖子中使用的。这是用于了解与关键计算机视觉任务相关的能力的一系列标准基准。
测试是在Gemini高级网络界面上进行的。测试#1:视觉问答(VQA)。首先询问Gemini图像中有多少枚硬币:使用提示“有多少枚硬币?”时,Gemini高级模型返回了错误结果。它指出木桌上有三枚硬币,实际上有四枚。而在12月,通过Google Cloud界面访问的Gemini能够成功回答这个问题。
然后询问了一张《小鬼当家》的照片,问:“这个场景来自哪部电影?”模型回答说它还不能帮助处理包含人物的图像。图片中只有一个人,而问题并没有特别涉及这个人。想进一步探索这个现象。Gemini是否对询问任何包含人脸的图像中的问题有更严格的控制,就像《小鬼当家》的照片一样?相比之下,其他多模态模型如GPT-4视觉版正确回答了这个问题。
还询问了Gemini高级关于菜单的问题,以评估模型的文档VQA能力。询问了菜单上熏牛肉披萨的价格,模型回答了正确的答案:27美元。文本提示是“熏牛肉披萨的价格是多少?”
在一个之前没有发布过的测试中,询问了Gemini高级图像内容是否有任何“错误”。展示了一个安全风险:机场跑道上的行李。模型成功识别出了安全风险。这表明模型能够使用图像内容来识别异常。文本提示是“上面的照片中有什么问题?”没有提出一个引导性的问题——例如“存在的安全风险是什么?”——这进一步说明了模型的异常检测能力。
测试#2:文档光学字符识别(OCR)。接下来,评估了Gemini高级的OCR能力。首先要求模型读取文本截图中的文本。这个领域被称为文档OCR,是计算机视觉世界中的一个长期问题,具有许多现实世界的应用。当Gemini高级被呈现给文档中的几句话和提示“从图片中读取文本”时,错误地读取了文档中的文本。大部分文本缺失,而原文中没有的单词——“transformation”和“fitness”——出现在Gemini高级的输出中。相比之下,GPT-4视觉版能够以完全的准确性回答这个问题,精确到字符级别。
测试#3:光学字符识别(OCR)。然后要求Gemini高级读取轮胎上的序列号,这是Gemini在12月无法回答的任务。Gemini高级成功回答了这个问题:总的来说,这种行为很有趣。Gemini高级在实际的OCR任务(读取轮胎上的文本)上表现良好,而其他模型在这方面却很挣扎。但是当呈现一个所有字符都清晰可读的文档时,模型却挣扎了。
测试#4:目标检测。在有限的测试中,无法获得边界框,但能够在询问对象存在时获得一般信息。当模型被要求返回表示图像位置的确切坐标时,模型的回应是这样的:在12月,Gemini能够返回边界框,尽管准确性不如Qwen-VL和CogVLM。另一方面,Gemini高级返回了其他服务的提示(有趣的是,包括Google的竞争对手)。话虽如此,对于一个通用提示“Detect doge [sic]”,模型能够识别图像中狗的存在。模型对狗的品种不太确定。没有明确要求这个信息在提示中。Gemini高级返回了一个回应,表明图像可能包含一只小猎犬,但也列出了图像可能包含的其他品种。
从这个回应中,出现了一个有趣的更广泛的考虑。一个错误地自信地指定答案的回应,可以说是比一个模型认为正确但无法确定的回应更糟糕。还没有将这种行为与其他模型进行视觉问题基准测试,但Gemini的上述回应表明这是需要进一步研究的领域。
额外观察:在测试过程中,观察到Gemini高级目前无法一次处理多个图像。这是其他多模态模型如GPT-4视觉版(一个封闭源模型)和Qwen-VL-Plus(一个开源模型)提供的功能。GPT-4视觉版和Qwen-VL-Plus都允许上传多个图像,并提出涉及只能通过处理和理解多个图像才能推断出的信息的问题。例如,Roboflow团队的一名成员询问了Qwen-VL-Plus根据菜单上的价格,桌上的啤酒应该付多少钱。要回答这个问题,必须使用两个图像中的信息。Qwen-VL-Plus成功回答了。
Qwen-VL-Plus基于多个图像进行推理。根据菜单上的价格,应该为桌上的啤酒支付多少?↓ 两个输入图像 pic.twitter.com/HRGCZPwagr — SkalskiP (@skalskip92) 2024年2月2日 结论 Gemini高级是Google的Gemini系列模型中最新的模型。Roboflow团队对Gemini进行了有限的一系列定性测试,以评估其性能。这些测试是在Gemini网络界面上进行的。报告了与在12月评估的Gemini版本相比,以下问题的退步:有多少枚硬币?(VQA;硬币计数测试)这是这个场景来自哪部电影?(VQA;《小鬼当家》测试)从图片中读取文本。(文档OCR;泰勒·斯威夫特文本)注意到在一般(非文档)OCR上有所改进,Gemini高级能够回答一个关于轮胎序列号的问题,而该模型在12月无法回答。观察到的性能退步让想知道为什么模型会以这种方式表现。
有限测试旨在成为模型的快照:一种直观地跨广泛任务基准性能的方式。话虽如此,测试是有限的。因此,可能在VQA上有改进;可能存在退步。尽管如此,上述的观察表明了进一步测试的重要性。期待着进行更多的内部测试,并看到社区的更多贡献。