Gemini高级模型评估报告

在2024年2月8日，Google宣布推出了Gemini高级版，这是他们Gemini系列模型中最先进的版本。此次发布伴随着两个重要的公告：(i) Google去年发布的Bard产品现在更名为Gemini，从而整合了Google的多模态模型产品线；(ii) Gemini现在可以在移动应用中使用。尽管如此，目前尚不清楚Gemini的确切可用范围。团队在欧洲的成员能够访问Gemini，但英国的一名团队成员即使使用个人Google账户也无法访问Gemini。

团队已经对Gemini高级版进行了与去年12月对Gemini进行的相同测试，以评估其性能。这些测试涵盖了从视觉理解到文档OCR的各种视觉任务。总体而言，与尝试过的其他多模态模型相比，Gemini高级版的表现相对较差，包括去年12月发布的Gemini版本。在基础任务上看到了退步：视觉问答（VQA）和文档OCR。让更深入地了解。

评估了Gemini在一系列任务上的表现。以下是对四个独立任务的评估：视觉问答（VQA）、光学字符识别（OCR）、文档OCR和目标检测。使用了与评估其他LMMs相同的图像和提示，这些是在GPT-4视觉替代品和Google Gemini初次印象帖子中使用的。这是用于了解与关键计算机视觉任务相关的能力的一系列标准基准。

测试是在Gemini高级网络界面上进行的。测试#1：视觉问答（VQA）。首先询问Gemini图像中有多少枚硬币：使用提示“有多少枚硬币？”时，Gemini高级模型返回了错误结果。它指出木桌上有三枚硬币，实际上有四枚。而在12月，通过Google Cloud界面访问的Gemini能够成功回答这个问题。

然后询问了一张《小鬼当家》的照片，问：“这个场景来自哪部电影？”模型回答说它还不能帮助处理包含人物的图像。图片中只有一个人，而问题并没有特别涉及这个人。想进一步探索这个现象。Gemini是否对询问任何包含人脸的图像中的问题有更严格的控制，就像《小鬼当家》的照片一样？相比之下，其他多模态模型如GPT-4视觉版正确回答了这个问题。

还询问了Gemini高级关于菜单的问题，以评估模型的文档VQA能力。询问了菜单上熏牛肉披萨的价格，模型回答了正确的答案：27美元。文本提示是“熏牛肉披萨的价格是多少？”

在一个之前没有发布过的测试中，询问了Gemini高级图像内容是否有任何“错误”。展示了一个安全风险：机场跑道上的行李。模型成功识别出了安全风险。这表明模型能够使用图像内容来识别异常。文本提示是“上面的照片中有什么问题？”没有提出一个引导性的问题——例如“存在的安全风险是什么？”——这进一步说明了模型的异常检测能力。

测试#2：文档光学字符识别（OCR）。接下来，评估了Gemini高级的OCR能力。首先要求模型读取文本截图中的文本。这个领域被称为文档OCR，是计算机视觉世界中的一个长期问题，具有许多现实世界的应用。当Gemini高级被呈现给文档中的几句话和提示“从图片中读取文本”时，错误地读取了文档中的文本。大部分文本缺失，而原文中没有的单词——“transformation”和“fitness”——出现在Gemini高级的输出中。相比之下，GPT-4视觉版能够以完全的准确性回答这个问题，精确到字符级别。

测试#3：光学字符识别（OCR）。然后要求Gemini高级读取轮胎上的序列号，这是Gemini在12月无法回答的任务。Gemini高级成功回答了这个问题：总的来说，这种行为很有趣。Gemini高级在实际的OCR任务（读取轮胎上的文本）上表现良好，而其他模型在这方面却很挣扎。但是当呈现一个所有字符都清晰可读的文档时，模型却挣扎了。

测试#4：目标检测。在有限的测试中，无法获得边界框，但能够在询问对象存在时获得一般信息。当模型被要求返回表示图像位置的确切坐标时，模型的回应是这样的：在12月，Gemini能够返回边界框，尽管准确性不如Qwen-VL和CogVLM。另一方面，Gemini高级返回了其他服务的提示（有趣的是，包括Google的竞争对手）。话虽如此，对于一个通用提示“Detect doge [sic]”，模型能够识别图像中狗的存在。模型对狗的品种不太确定。没有明确要求这个信息在提示中。Gemini高级返回了一个回应，表明图像可能包含一只小猎犬，但也列出了图像可能包含的其他品种。

从这个回应中，出现了一个有趣的更广泛的考虑。一个错误地自信地指定答案的回应，可以说是比一个模型认为正确但无法确定的回应更糟糕。还没有将这种行为与其他模型进行视觉问题基准测试，但Gemini的上述回应表明这是需要进一步研究的领域。

额外观察：在测试过程中，观察到Gemini高级目前无法一次处理多个图像。这是其他多模态模型如GPT-4视觉版（一个封闭源模型）和Qwen-VL-Plus（一个开源模型）提供的功能。GPT-4视觉版和Qwen-VL-Plus都允许上传多个图像，并提出涉及只能通过处理和理解多个图像才能推断出的信息的问题。例如，Roboflow团队的一名成员询问了Qwen-VL-Plus根据菜单上的价格，桌上的啤酒应该付多少钱。要回答这个问题，必须使用两个图像中的信息。Qwen-VL-Plus成功回答了。

Qwen-VL-Plus基于多个图像进行推理。根据菜单上的价格，应该为桌上的啤酒支付多少？↓ 两个输入图像 pic.twitter.com/HRGCZPwagr — SkalskiP (@skalskip92) 2024年2月2日结论 Gemini高级是Google的Gemini系列模型中最新的模型。Roboflow团队对Gemini进行了有限的一系列定性测试，以评估其性能。这些测试是在Gemini网络界面上进行的。报告了与在12月评估的Gemini版本相比，以下问题的退步：有多少枚硬币？（VQA；硬币计数测试）这是这个场景来自哪部电影？（VQA；《小鬼当家》测试）从图片中读取文本。（文档OCR；泰勒·斯威夫特文本）注意到在一般（非文档）OCR上有所改进，Gemini高级能够回答一个关于轮胎序列号的问题，而该模型在12月无法回答。观察到的性能退步让想知道为什么模型会以这种方式表现。

有限测试旨在成为模型的快照：一种直观地跨广泛任务基准性能的方式。话虽如此，测试是有限的。因此，可能在VQA上有改进；可能存在退步。尽管如此，上述的观察表明了进一步测试的重要性。期待着进行更多的内部测试，并看到社区的更多贡献。

Gemini高级模型评估报告

使用计算机视觉技术在Minecraft中自动采集木材

Gemini多模态模型性能分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

Gemini高级模型评估报告

使用计算机视觉技术在Minecraft中自动采集木材

Gemini多模态模型性能分析

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485