Gemini多模态模型性能分析

在当今的技术领域，多模态模型正变得越来越重要。这些模型能够处理文本、图像和音频等多种数据类型，为人工智能领域带来了新的突破。Google开发的Gemini模型正是这一领域的佼佼者。本文将探讨Gemini模型的基本概念，分析其在一系列计算机视觉任务中的表现，并分享如何开始使用Gemini的资源。

Gemini模型简介

Gemini是由Google开发的大型多模态模型（Large Multimodal Model，简称LMM）。与传统的仅处理文本的大型语言模型不同，LMM能够处理包括文本、图像和音频在内的多种数据类型。Gemini模型的推出，标志着人工智能在理解和生成多模态内容方面迈出了重要一步。

Gemini模型在发布时展示了其在多个领域的应用能力，如编写代码、解释数学问题、比较两幅图像的相似性、将图像转换为代码、理解不寻常的表情符号等。尽管有报道称某些演示可能经过了编辑，但这并不影响Gemini模型在多模态领域的潜力。

Gemini模型有三个版本，分别针对不同的应用场景：

Ultra版：最大的模型，适用于完成复杂的任务。
Pro版：能够在多种任务中进行扩展的模型。
Nano版：适用于在移动设备上使用的模型，例如智能手机。

目前，Gemini的文本能力的一个有限版本已经集成到了Bard中。Google声称，Ultra模型在32个广泛使用的学术基准测试中的30个上超过了当前的最佳水平，但目前无法亲自体验Ultra模型。

如何运行Gemini模型

可以通过GoogleCloud Vertex AI Multimodal playground来运行Gemini模型。这个playground提供了一个Web界面，通过它可以与支持询问图像问题的Gemini Pro Vision进行交互。此外，还可以通过HTTP提供多模态提示来向Gemini API发送请求。更多信息请参考Gemini API文档。

如果希望以更少的努力探索Gemini，可以尝试Gemini playground页面。

在计算机视觉任务中评估Gemini模型

在四个不同的视觉任务中评估了Gemini模型的表现：视觉问题回答（Visual Question Answering，简称VQA）、光学字符识别（Optical Character Recognition，简称OCR）、文档OCR和目标检测。使用了与评估其他LMM相同的图像和提示，这是用于了解与关键计算机视觉任务相关的能力的一系列标准基准。

首先进行了一个硬币测试，询问Gemini“有多少硬币？”Gemini成功地计算了图像中的硬币数量。LLaVA、BakLLaVA、Qwen-VL和CogVLM也都通过了这个测试。当用相同的提示测试GPT-4 with Vision时，它没有返回准确的响应。

接下来，询问Gemini是否能识别图像中出现的电影。发送给Gemini的图像如下：

<img src="movie_image.jpg" alt="电影图像">

模型成功识别出图像中的电影是《小鬼当家》。Qwen-VL和GPT-4 with Vision都能够成功回答这个提示。LLaVA、BakLLaVA和CogVLM没有通过上面的《小鬼当家》场景测试。

还询问了Gemini一个关于菜单的问题。给定下面的菜单，问Gemini“Pastrami Pizza的价格是多少？”

<img src="menu_image.jpg" alt="菜单图像">

Gemini成功回答了问题，指出Pastrami Pizza的价格是27美元：CogVLM、Gemini和GPT-4 with Vision通过了这个测试。LLaVA、BakLLaVA和Qwen-VL没有通过测试。

接下来，评估了Gemini的OCR能力。提供了一个轮胎的图像，要求模型读取序列号。这是发送给Gemini的图像：

<img src="tire_image.jpg" alt="轮胎图像">

使用标准提示“读取序列号。”，Gemini提供了一个错误的响应，添加了序列号中不存在的字母。然后修改了提示，要求更具体地询问“图像中的序列号是什么？”在这两种情况下，模型都是错误的。

真实的序列号是3702692432，而Gemini说是11020422。Qwen-VL、CogVLM和GPT-4 with Vision都准确地回答了这个问题。LLaVA、BakLLaVA和Gemini没有准确地回答这个问题。

接下来，评估了Gemini在文档OCR上的表现。提供了以下图像，并提示“从图片中读取文本。”

<img src="document_image.jpg" alt="文档图像">

Gemini几乎正确，但在与真实情况相比时错过了第一句话中的一个“‘s”：

Qwen-VL、CogVLM和GPT-4 with Vision都以完全的准确性通过了这个测试。

然后要求Gemini检索一张收据上显示的餐费税额。提示是“支付了多少税？”这是发送给Gemini的图像：

<img src="receipt_image.jpg" alt="收据图像">

Gemini成功回答了问题，指出支付了2.30美元的税。

测试的大多数多模态模型在目标检测方面都存在困难。这涉及到返回图像中目标的具体坐标。只有Qwen-VL和CogVLM能够准确地识别出图像中狗的位置，这是标准测试。

用文本“找到狗。”和以下图像提示Gemini：

<img src="dog_image.jpg" alt="狗的图像">

起初，Gemini不断返回“点击提交后模型将生成响应”与这个提示。如果能够使测试工作，将更新这篇文章。

重试了请求和提示，怀疑这与任务无关，因为在运行其他提示时也遇到了问题。尝试了提示“找到狗的x/y/w/h位置，以xy为中心点。”，收到了以下响应：

在图像上绘制了坐标：

<img src="dog_coordinates.jpg" alt="狗的坐标">

Gemini正确地识别了狗的大致位置，但坐标区域只覆盖了狗的一部分。目前尚不清楚Gemini是否识别出了中心点还是狗，因为狗在中心。

又进行了另一项测试，寻找本文前面提到的《小鬼当家》图像中的圣诞树：

结果坐标是无效的。

Gemini是由Google开发的一款多模态模型，能够与文本、图像、音频和代码进行交互。通过Gemini，可以询问图像内容的问题，这是计算机视觉应用中的一个强大功能。

在本指南中，评估了Gemini在一系列视觉任务中的表现，从VQA到OCR。如果对多模态模型感兴趣，可以探索其他多模态内容。

Gemini高级模型评估报告

本报告详细评估了Google的Gemini高级模型在视觉问答、文档OCR和目标检测等任务上的表现。

多模态语言模型LLaVA-1.5评测

本文介绍了2023年发布的开源多模态语言模型LLaVA-1.5，并对其图像识别和视觉问答能力进行了初步评测。

Gemini多模态模型性能分析

Gemini模型简介

如何运行Gemini模型

在计算机视觉任务中评估Gemini模型

Gemini高级模型评估报告

多模态语言模型LLaVA-1.5评测

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

Gemini多模态模型性能分析

Gemini模型简介

如何运行Gemini模型

在计算机视觉任务中评估Gemini模型

Gemini高级模型评估报告

多模态语言模型LLaVA-1.5评测

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485