Gemini多模态模型性能分析

在当今的技术领域,多模态模型正变得越来越重要。这些模型能够处理文本、图像和音频等多种数据类型,为人工智能领域带来了新的突破。Google开发的Gemini模型正是这一领域的佼佼者。本文将探讨Gemini模型的基本概念,分析其在一系列计算机视觉任务中的表现,并分享如何开始使用Gemini的资源。

Gemini模型简介

Gemini是由Google开发的大型多模态模型(Large Multimodal Model,简称LMM)。与传统的仅处理文本的大型语言模型不同,LMM能够处理包括文本、图像和音频在内的多种数据类型。Gemini模型的推出,标志着人工智能在理解和生成多模态内容方面迈出了重要一步。

Gemini模型在发布时展示了其在多个领域的应用能力,如编写代码、解释数学问题、比较两幅图像的相似性、将图像转换为代码、理解不寻常的表情符号等。尽管有报道称某些演示可能经过了编辑,但这并不影响Gemini模型在多模态领域的潜力。

Gemini模型有三个版本,分别针对不同的应用场景:

  • Ultra版:最大的模型,适用于完成复杂的任务。
  • Pro版:能够在多种任务中进行扩展的模型。
  • Nano版:适用于在移动设备上使用的模型,例如智能手机。

目前,Gemini的文本能力的一个有限版本已经集成到了Bard中。Google声称,Ultra模型在32个广泛使用的学术基准测试中的30个上超过了当前的最佳水平,但目前无法亲自体验Ultra模型。

如何运行Gemini模型

可以通过GoogleCloud Vertex AI Multimodal playground来运行Gemini模型。这个playground提供了一个Web界面,通过它可以与支持询问图像问题的Gemini Pro Vision进行交互。此外,还可以通过HTTP提供多模态提示来向Gemini API发送请求。更多信息请参考Gemini API文档。

如果希望以更少的努力探索Gemini,可以尝试Gemini playground页面。

在计算机视觉任务中评估Gemini模型

在四个不同的视觉任务中评估了Gemini模型的表现:视觉问题回答(Visual Question Answering,简称VQA)、光学字符识别(Optical Character Recognition,简称OCR)、文档OCR和目标检测。使用了与评估其他LMM相同的图像和提示,这是用于了解与关键计算机视觉任务相关的能力的一系列标准基准。

首先进行了一个硬币测试,询问Gemini“有多少硬币?”Gemini成功地计算了图像中的硬币数量。LLaVA、BakLLaVA、Qwen-VL和CogVLM也都通过了这个测试。当用相同的提示测试GPT-4 with Vision时,它没有返回准确的响应。

接下来,询问Gemini是否能识别图像中出现的电影。发送给Gemini的图像如下:

<img src="movie_image.jpg" alt="电影图像">

模型成功识别出图像中的电影是《小鬼当家》。Qwen-VL和GPT-4 with Vision都能够成功回答这个提示。LLaVA、BakLLaVA和CogVLM没有通过上面的《小鬼当家》场景测试。

还询问了Gemini一个关于菜单的问题。给定下面的菜单,问Gemini“Pastrami Pizza的价格是多少?”

<img src="menu_image.jpg" alt="菜单图像">

Gemini成功回答了问题,指出Pastrami Pizza的价格是27美元:CogVLM、Gemini和GPT-4 with Vision通过了这个测试。LLaVA、BakLLaVA和Qwen-VL没有通过测试。

接下来,评估了Gemini的OCR能力。提供了一个轮胎的图像,要求模型读取序列号。这是发送给Gemini的图像:

<img src="tire_image.jpg" alt="轮胎图像">

使用标准提示“读取序列号。”,Gemini提供了一个错误的响应,添加了序列号中不存在的字母。然后修改了提示,要求更具体地询问“图像中的序列号是什么?”在这两种情况下,模型都是错误的。

真实的序列号是3702692432,而Gemini说是11020422。Qwen-VL、CogVLM和GPT-4 with Vision都准确地回答了这个问题。LLaVA、BakLLaVA和Gemini没有准确地回答这个问题。

接下来,评估了Gemini在文档OCR上的表现。提供了以下图像,并提示“从图片中读取文本。”

<img src="document_image.jpg" alt="文档图像">

Gemini几乎正确,但在与真实情况相比时错过了第一句话中的一个“‘s”:

Qwen-VL、CogVLM和GPT-4 with Vision都以完全的准确性通过了这个测试。

然后要求Gemini检索一张收据上显示的餐费税额。提示是“支付了多少税?”这是发送给Gemini的图像:

<img src="receipt_image.jpg" alt="收据图像">

Gemini成功回答了问题,指出支付了2.30美元的税。

测试的大多数多模态模型在目标检测方面都存在困难。这涉及到返回图像中目标的具体坐标。只有Qwen-VL和CogVLM能够准确地识别出图像中狗的位置,这是标准测试。

用文本“找到狗。”和以下图像提示Gemini:

<img src="dog_image.jpg" alt="狗的图像">

起初,Gemini不断返回“点击提交后模型将生成响应”与这个提示。如果能够使测试工作,将更新这篇文章。

重试了请求和提示,怀疑这与任务无关,因为在运行其他提示时也遇到了问题。尝试了提示“找到狗的x/y/w/h位置,以xy为中心点。”,收到了以下响应:

在图像上绘制了坐标:

<img src="dog_coordinates.jpg" alt="狗的坐标">

Gemini正确地识别了狗的大致位置,但坐标区域只覆盖了狗的一部分。目前尚不清楚Gemini是否识别出了中心点还是狗,因为狗在中心。

又进行了另一项测试,寻找本文前面提到的《小鬼当家》图像中的圣诞树:

结果坐标是无效的。

Gemini是由Google开发的一款多模态模型,能够与文本、图像、音频和代码进行交互。通过Gemini,可以询问图像内容的问题,这是计算机视觉应用中的一个强大功能。

在本指南中,评估了Gemini在一系列视觉任务中的表现,从VQA到OCR。如果对多模态模型感兴趣,可以探索其他多模态内容。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485