在人工智能领域,多模态模型(LMMs)的发展无疑是未来几年AI进步的关键方向之一。尽管这些模型在处理和解释图像内容方面的能力通常有限,主要集中在对象字符识别(OCR)、视觉问题回答(VQA)和图像描述上,但通过巧妙的视觉提示,可以显著扩展这些模型的能力。本文将展示如何利用“多模态指挥家”(Multimodal Maestro)来增强LMMs的功能。
在论文中,发现可以通过熟练的视觉提示来释放LMMs的定位能力,有效实现对象检测甚至分割。与传统的直接将图像上传到LMMs不同,首先使用、或生成的标记来增强图像。这样,LMMs在回答问题时可以参考这些额外的标记。
受Set-of-Mark的启发,创建了一个库来简化对LMMs的提示。现在,来介绍“多模态指挥家”!这个库包含了先进的提示策略,允许对LMMs进行更精细的控制,从而获得更好的结果。例如,使用GPT-4 Vision进行实例分割,可以利用Multimodal Maestro显著扩展其能力,实现检测和/或分割。
在实验中,要求GPT-4V检测照片中的红苹果。由于GPT-4V不能返回框或分割掩码,因此它尝试使用语言描述搜索对象的位置。仅使用GPT-4 Vision进行推理的结果可能不尽如人意。但是,通过使用Multimodal Maestro创建Set-of-Mark风格的图像提示并再次提问,输出结果将大大改善。
// 示例代码:使用Multimodal Maestro创建图像提示
const maestro = new MultimodalMaestro();
const enhancedImage = maestro.enhanceImageWithMarks(originalImage);
const result = gpt4Vision.detectObjects(enhancedImage);
console.log(result);
虽然OpenAI的GPT-4 Vision是最著名的LMMs之一,但还有其他选择。最新博客文章探讨了四个突出的:LLaVA、BakLLaVA、Qwen-VL和CogVLM。CogVLM在视觉查询语言(VQL)、光学字符识别(OCR)和零样本检测方面表现出色,与GPT-4相媲美。决定测试CogVLM是否能够使用Multimodal Maestro生成的标记,结果超出了预期。