在图像分类领域,CLIP和GPT-4V是两个非常强大的模型。CLIP是一个零样本学习模型,它不需要预先训练就能对图像进行分类。而GPT-4V则是一种更专业的分类模型。本文将通过三个测试来评估这两个模型在特定分类任务上的表现:汽车品牌分类、杯子类型分类和披萨种类分类。
测试方法
将从谷歌获取图像,并通过CLIP和GPT-4V进行处理。CLIP会为每个类别返回概率,而GPT-4V则不会这样做。将根据CLIP返回的最高概率预测结果,并要求GPT-4V返回单一分类结果。GPT-4V提示是:“图像中有什么?返回图像中对象的类别。这里有类别:类别。只能从列表中返回一个类别。”其中“类别”是一个逗号分隔的类别列表。
测试#1:汽车品牌分类
假设正在构建一个销售二手车的应用程序。能够拍摄汽车照片并推断汽车的信息——它的颜色、品牌、座位数——将为数据输入提供便利,与填写长表格相比。让专注于识别汽车品牌。可以潜在地使用CLIP或GPT-4V来分类汽车品牌作为更大系统的一部分。让测试CLIP和GPT-4V看看它们的表现如何。
测试#2:杯子分类
在使用零样本对象检测模型时,观察到模型有时难以区分在相同上下文中出现的相似对象。在实验Grounding DINO,一个零样本对象检测模型时,发现该模型难以区分不同类型的杯子、不同类型的垃圾和其他相似对象。没有特别遇到CLIP的这个问题,但想知道GPT-4V在识别相似对象的特征上的表现如何,并记录结果。
测试#3:披萨测试
对于人眼来说,一个制作精良的芝加哥深盘披萨很容易识别,比如披萨盘、披萨的深度等线索。想知道CLIP和GPT-4V在分类深盘披萨和普通披萨上的表现如何。获取了以下图像:一个应用这种系统的场所是在餐厅。可以在餐厅安装一个摄像头,观察披萨,并在披萨被送到顾客面前之前检查正确的披萨是否被送到了正确的地方。那么,这些模型的表现如何呢?
CLIP与GPT-4V:总体印象
上述测试有一个共同点:不是在区分两个相距甚远的对象(猫和狗),而是想分析CLIP和GPT-4V在分类相似对象时的比较。对CLIP在测试中的表现感到惊讶。CLIP是一个强大的模型,但在所有三个测试中CLIP都能成功识别对象。对于GPT-4V,不确定会有什么结果。对GPT-4V的表现感到兴奋。
虽然CLIP和GP4-V在测试中取得了相同的性能,但这些模型有不同的部署考虑因素。可以在Mac或具有CUDA功能的GPU设备上几乎实时地运行CLIP。CLIP在本地运行。相比之下,GPT-4V需要向OpenAI托管的外部API发送请求。向外部服务发送此类请求会有一些开销。
鼓励使用脚本尝试CLIP和GPT-4V,以探索其在自己的任务上的性能。如果在LinkedIn或Twitter上发布结果,请标记Roboflow——很好奇人们会做什么实验!