在2023年,人工智能领域迎来了多模态语言模型的快速发展。这些模型不仅能够处理文本输入,还能理解和回答有关图像的问题。今年,OpenAI推出了GPT-4(V)ision,而Google则发布了Bard及其视觉功能。10月5日,LLaVA-1.5的发布标志着开源多模态语言模型的新纪元。LLaVA-1.5是LLaVA系列的最新迭代,能够在单个8-A100 GPU上进行训练,其在图像描述和视觉问答方面表现出色,为开源多模态语言模型的发展迈出了重要一步。
LLaVA-1.5简介
LLaVA-1.5是一个开源的多模态语言模型,它可以接受文本输入,并可选择性地提供图像作为问题的上下文。LLaVA-1.5的代码发布是为了配合"Improved Baselines with Visual Instruction Tuning"论文。在这篇论文的摘要中,指出,通过对LLaVA进行简单的修改,即使用CLIP-ViT-L-336px与MLP投影,并添加面向学术任务的视觉问答数据以及简单的响应格式化提示,他们建立了更强的基线,在11个基准测试中达到了最先进的性能。
LLaVA-1.5提供了一个在线演示平台,用户可以立即进行实验。这与GPT-4(V)ision形成对比,后者仍在推出中,并且仅在OpenAI的付费GPT-4层提供。
测试#1:零样本目标检测
在评估新的多模态模型时,首先进行的测试之一是询问图像中对象的坐标。这种测试使能够评估模型执行零样本目标检测的能力,这是一种目标检测,模型旨在识别对象而无需针对识别该对象的目的进行微调。测试了LLaVA-1.5在两个单独的图像中检测狗和吸管的能力。在这两种情况下,LLaVA-1.5都能够成功识别对象。
// 使用LLaVA-1.5检测图像中的狗
LLaVA-1.5.ask("请返回图像中狗的坐标,格式为x_min, y_min, x_max, y_max");
// 使用LLaVA-1.5检测图像中的吸管
LLaVA-1.5.ask("请返回图像中吸管的坐标,格式为x_min, y_min, x_max, y_max");
测试#2:图像理解
在测试GPT-4(V)ision的博客文章中,通过询问一个梗图来了解模型在处理微妙上下文方面的表现。决定用一个带有奇怪定义特征的图像来尝试这个测试。上传了一张一个人在城市中将熨衣板挂在黄色汽车后部熨烫衣物的照片。熨衣板相对平坦,尽管它以一种在人类检查时并不立即明显的方式挂在黄色汽车上。
问LLaVA-1.5:“这张图片有什么不寻常之处?”模型回答说,“熨烫衣物通常在室内进行,在固定位置,并采取适当的安全措施”。LLaVA-1.5接着描述说,“在街道中间的汽车后部熨烫衣物既非常规又可能危险”。
为了进一步测试LLaVA-1.5的图像理解能力,上传了一张美国一分钱的照片,并提示“这是什么?”LLaVA-1.5成功地识别了硬币的面额。该模型还提供了对便士的详细描述,指出了它的颜色和两个短语。最后一句话提到了硬币背面的一个特征,表明模型依赖于图像之外的知识来回答查询。
然而,当提供一张四枚硬币的照片并被问及“有多少零钱?”时,模型没有返回准确的答案。LLaVA-1.5成功地识别了图像中有四枚硬币,但没有理解它们的面额。
测试#3:光学字符识别(OCR)
接下来,测试了LLaVA-1.5进行光学字符识别(OCR)的能力。首先,从网页上截取了一段清晰的文本。使用相同的文本来评估GPT-4V。GPT-4V能够成功识别文本。
要求LLaVA-1.5“从图像中读取文本”,结果出现了一个有趣的错误。模型正确识别了一些文本,但犯了几个错误。然后,在遇到“repeat”这个词后,模型陷入了循环。
然后,要求LLaVA-1.5提供轮胎上的序列号。模型犯了两个错误:输出中多了一个0,最后一个数字缺失了。
多模态的反思
多模态是语言模型的下一个前沿,其中文本和图像输入可以用来提问。LLaVA-1.5是2023年发布的最新多模态模型,其显著的区别在于:该模型是开源的。LLaVA-1.5在视觉问答方面表现出了良好的能力。例如,LLaVA-1.5能够回答有关图像异常的问题,并能够回答有关图像中单个硬币面额的问题。LLaVA-1.5还能够返回图像中对象的坐标,这是GPT-4V难以完成的任务。
话虽如此,LLaVA-1.5无法准确执行来自清晰数字文档的图像的OCR。相比之下,GPT-4V在这方面表现良好。当给出一张轮胎序列号的图像时,LLaVA-1.5在读取文本方面遇到了困难,就像GPT-4V一样。
通过测试各种模型——OpenAI的GPT-4V、Google的Bard和Microsoft的Bing Chat——发现所有模型都有自己的优势和劣势。没有一种模型能够在现代计算机视觉任务的范围内表现良好,如目标检测、视觉问答和OCR。