多模态模型与视觉能力探索

在2023年9月,GPT-4视觉能力被引入,它允许用户对图像内容提出问题,这在计算机视觉领域被称为视觉问答(VQA)。此外,它还能执行其他视觉任务,例如光学字符识别(OCR),其中模型读取图像中的字符。GPT-4视觉能力通过OpenAI的ChatGPT Plus订阅者网络界面以及OpenAI GPT-4视觉API提供。

尽管GPT-4视觉能力引起了广泛关注,但它只是众多大型多模态模型(LMMs)中的一个。LMMs是能够处理多种类型或“模态”信息的语言模型,例如图像和音频。本文将探讨GPT-4视觉能力的五个替代方案:四个LMMs(LLaVA、BakLLaVA、Qwen-VL和CogVLM)以及训练微调计算机视觉模型。

通过一系列测试来评估这些模型,涵盖了视觉问答(VQA)、光学字符识别(OCR)和零样本对象检测。虽然测试并不全面,但它们提供了一个一致的测试快照,涵盖了所有模型。以下是测试的一些摘录,但可以在LMM评估结果中查看所有结果(ZIP文件,10.6 MB)。

GPT-4视觉能力简介

GPT-4视觉能力使能够询问图像中的内容,这被称为视觉问答(VQA),是计算机视觉领域多年来一直在详细研究的领域。还可以执行其他视觉任务,例如光学字符识别(OCR),其中模型读取图像中的字符。使用GPT-4视觉能力,可以询问图像中存在或不存在的内容,图像中对象之间的关系,两个对象之间的空间关系(一个对象是否在另一个对象的左侧或右侧),对象的颜色等。

GPT-4视觉能力的替代方案

计算机视觉行业正在快速发展,多模态模型在行业中扮演着越来越重要的角色。与此同时,微调模型在一系列用例中显示出了显著的价值,如下所述。

OpenAI是众多研究团队中追求LMM研究的一个。在过去的一年里,已经看到了GPT-4视觉能力、LLaVA、BakLLaVA、CogVLM、Qwen-VL等模型,它们都旨在将文本和图像数据连接起来,创建一个LMM。每个模型都有自己的优势和劣势。LLMs的广泛能力——涵盖从光学字符识别(OCR)到视觉问答(VQA)的领域——很难比较;这就是基准测试的作用。因此,下面的模型并不是“替代”GPT-4视觉能力,而是作为GPT-4视觉能力的替代方案。

Qwen-VL是由阿里云开发的LMM。Qwen-VL接受图像、文本和边界框作为输入。该模型可以输出文本和边界框。Qwen-VL自然支持英语、中文和多语言对话。因此,如果有一个预期在提示或答案中使用中文和英语的用例,这个模型可能值得探索。

# 使用Qwen-VL询问图片来自哪部电影 # Qwen-VL成功地从提供的图片中识别出电影为《小鬼当家》

CogVLM能够成功识别文档中的文本。CogVLM能够理解和回答各种类型的问题,并具有视觉基础版本。基础能力使模型能够将其响应与现实世界中的知识和事实联系起来,在例子中是图像中的对象。

# CogVLM能够准确详细地描述图像,很少有幻觉。 # 下面的图像显示了指令“找到狗”。CogVLM在狗周围画了一个边界框,并提供了狗的坐标。 # 这表明CogVLM可以用于零样本对象检测,因为它返回了基础对象的坐标。(注意:在使用的演示空间中,CogVLM为预测绘制了边界框)

大型语言和视觉助手(LLaVA)是由Haotian Liu、Chunyuan Li、Qingyang Wu和Yong Jae Lee开发的LMM。在撰写本文时,LLaVA的最新版本是1.5版。LLaVA 1.5可以说是GPT-4V最受欢迎的替代品。LLaVA主要用于VQA。可以向LLaVA询问关于图像的问题并获取答案。话虽如此,Roboflow团队在零样本对象检测和对象字符识别(OCR)方面也发现了一些能力。

BakLLaVA是由LAION、Ontocord和Skunkworks AI开发的LMM。BakLLaVA使用增强了LLaVA 1.5架构的Mistral 7B基础。结合使用llama.cpp(一个在C++中运行LLaMA模型的工具),可以在笔记本电脑上使用BakLLaVA,前提是有足够的GPU资源可用。

# BakLLaVA是一个比GPT-4视觉能力更快、资源消耗更少的替代品。 # 然而,如果没有微调LLaVA,它更经常地返回错误的结果。在所有测试中,除了一个测试外,BakLLaVA都未能返回正确的响应。

微调计算机视觉模型

微调模型被训练以识别有限的一组对象。例如,可能会训练一个微调模型来识别零售店应用中特定的产品SKU,或者训练一个模型来识别用于安全保障工具中的叉车。要构建一个微调模型,需要一组标记的图像。这些图像应该代表模型部署的环境。每个标签应该指向一个感兴趣的对象(即一个产品,一个缺陷)。然后这些信息被用来训练一个模型来识别在数据集中添加的所有类别作为标签。

# 微调模型,如使用YOLOv8或ViT架构训练的模型,可以接近实时运行。 # 例如,可以将YOLOv8模型连接到监控建筑场地的相机的输出,以寻找叉车离人太近的时候。

训练一个微调模型需要时间,因为需要收集和标记数据。这与LMMs形成对比,后者无需任何微调训练即可使用。话虽如此,收集和标记数据的要求是一种伪装的祝福:因为知道什么进入了模型,所以可以调试出了什么问题。例如,如果模型难以识别一个类别,可以调整模型,直到它表现良好。相比之下,LMMs则难以理解;对LMMs进行微调对于大多数人来说成本过高,技术上具有挑战性。

GPT-4视觉能力将多模态语言模型带给了广大受众。随着GPT-4视觉能力在GPT-4网络界面的发布,世界各地的人们可以上传图像并询问它们。话虽如此,GPT-4视觉能力只是众多多模态模型中的一个。多模态是一个活跃的研究领域,新模型定期发布。事实上,上述所有模型都是在2023年发布的。像GPT-4视觉能力、LLaVA和Qwen-VL这样的多模态模型展示了解决从OCR到VQA等一系列视觉问题的能力。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485