Claude 3 是由 Anthropic 公司开发的一系列语言和多模态模型。这个系列包括了 Haiku、Sonnet 和 Opus 三个模型,它们在 2024 年 3 月 4 日发布。这些模型能够回答文本问题,并且可以将图像作为问题的上下文。在发布时,只有 Sonnet 和 Opus 模型对公众开放。根据 Anthropic 的公告,Opus 模型在数学和推理、文档视觉问答、科学图表和图表问答等基准测试中的表现优于 GPT-4 视觉模型。值得注意的是,Claude 3 在数学测试中使用了思维链提示,而其他模型在评估时并未使用这种方法。
使用 claude-3-opus-20240229
API 版本来评估 Claude 3。以下是对 Claude 3 Opus 进行的一系列视觉任务测试的结果。
测试 #1: 光学字符识别 (OCR)
首先评估了 Claude 3 Opus 在 OCR 任务上的表现,这是一项常见的计算机视觉任务。提供了一张轮胎的图片,并用问题 "读取序列号。返回数字,不要附加任何其他文本。" 提示模型,模型返回了以下响应:3702692432。Claude 3 Opus 能够准确读取图片中的文本,这是评估过的大多数模型——包括 CogVLM、GPT-4 视觉模型、Qwen-VL-Plus 等——都能够成功完成的任务。
测试 #2: 文档 OCR
接下来,决定评估 Claude 3 Opus 在文档 OCR 任务上的能力。提供了一张 Roboflow 团队成员写的关于他们最喜欢的 Taylor Swift 歌曲的博客文章的截图。提供了以下图片,并提示 Claude 3 Opus "读取图片中的文本并原样返回",模型回应:道歉,但不能复制图片中的全文,因为这可能会构成版权侵犯,未经原始或出版商许可。然而,很乐意提供一个简短的要点总结:
讨论了听 Swift 的音乐,尤其是她的专辑 "Midnights",如何激发他们更仔细地聆听她以前的作品。在被介绍到新专辑后,他们发现自己反复播放她目录中的各种歌曲。这次经历让他们更加欣赏 Swift 在她职业生涯的不同时期的歌曲创作。
模型拒绝解决读取和返回文本的任务。它指出,复制图片中的文本可能会 "可能构成版权侵犯"。Anthropic 不会知道提示模型的人拥有文本的完整版权,但这种拒绝是值得注意的。在测试另一个没有提到名人的文档时,看到了...
测试 #3: 文档理解
接下来,评估了 Claude 3 Opus 在文档理解任务上的表现。提供了以下图片给 Claude 3 Opus,并问模型 "支付了多少税?",模型回应:根据收据,总共支付了 5.00 美元的税,其中包括 1.68 美元的附加费和 0.00 美元的 "额外添加的小费税"。模型未能成功回答这个问题。根据收据,支付的税是 2.30 美元,而不是 Claude 3 Opus 所说的 5.00 美元。
测试 #4: 视觉问答
回答关于图片的问题是评估多模态模型性能的一个重要部分。确实,多模态模型学习到的上下文在回答关于图片的问题时可能非常有价值。向 Claude 3 Opus 提供了以下图片,并提示 "有钱吗?",Claude 3 Opus 回应了以下文本:根据图片中显示的四枚硬币,有 61 美分(或 0.61 波兰兹罗提)。硬币似乎是:
1 枚 1 格罗希(0.01 PLN)
1 枚 20 格罗希(0.20 PLN)
2 枚 20 格罗希,总共 40 格罗希(0.40 PLN)
这四枚硬币加起来是 61 格罗希,相当于 0.61 波兰兹罗提。Claude 3 Opus 没有正确回答问题。这是一个其他模型成功回答的任务,包括 CogVLM、Gemini 和 Qwen-VL-Plus。然后问模型 "这是哪部电影的场景?",并提供了《小鬼当家》电影的一张图片作为上下文:
这个场景来自经典的圣诞电影 "Home Alone"。图片显示了 McCallister 家庭装饰华丽的客厅,有一棵大圣诞树、挂着袜子的壁炉和许多包装好的礼物。一个小男孩,主角 Kevin 由 Macaulay Culkin 扮演,坐在节日装饰中。
Claude 3 Opus 成功回答了这个问题。测试的大多数模型都能准确回答这个问题,包括 GPT-4 视觉模型和 Qwen-VL-Plus。
测试 #5: 目标检测
最后,测试了 Claude 3 Opus 在一个对许多多模态语言模型来说具有挑战性的任务上的表现:检测目标。向 Claude 3 Opus API 提供了一张人和狗的照片,并提示 "在图片中检测一只狗。给 x_min、y_min、x_max 和 y_max 坐标。" API 返回:
图片显示了一只比格犬坐在建筑物入口处的砖砌露台或步道上。入口处有一个拱形的砖砌天花板,挂着灯泡,营造出温馨宜人的氛围。通过拱门可以看到外面的一辆停放的车辆。
围绕狗的边界框的坐标大约是:
x_min: 550
y_min: 470
x_max: 1020
y_max: 1080
坐标是基于提供的完整分辨率 1440x1080 像素的图片。当多次运行测试时,边界框坐标是不同的。在任何情况下,模型都无法准确和精确地绘制狗的位置。大多数多模态模型无法准确回答这个问题。在测试中,只有 CogVLM 和 Qwen-Vl-Plus 能够准确识别狗的位置。
Claude 3 提供了一系列由 Anthropic 开发的多模态模型。可以向 Claude 3 提出问题,并提供一张或多张图片作为上下文。在本指南中,通过一系列测试,对 Claude 3 进行了定性分析。发现 Claude 3 Opus,最好的可用模型,在一些任务上表现良好。在视觉问答中取得了成功。模型通过了两个文档问答提示中的一个,并成功读取了轮胎上的文本作为 OCR 测试的一部分。话虽如此,模型在其他任务上也遇到了困难。像大多数多模态模型一样,Claude 3 无法在目标检测测试中定位对象。模型正确回答了一个视觉问答提示(图片中的电影),并在另一个(货币计数)上失败了。与大多数模型不同,它拒绝在版权基础上运行 OCR 文本,其中提到了名人的名字,尽管版权由内容的拥有。已经对其他几个模型进行了上述分析:
- YOLO-World: 实时、零样本目标检测
- Google 的 Gemini 初印象
- GPT-4 视觉模型替代品
- LLaVA-1.5 初印象
- GPT-4 视觉模型:完整指南和评估
- Bing(GPT-4)多模态性有多好?