GPT-4视觉能力与Roboflow应用指南

随着人工智能技术的飞速发展,GPT-4模型的推出为图像分类、视觉问答、手写识别、文档识别等领域带来了革命性的变化。结合Roboflow的视觉模型,如目标检测、分类和分割模型,以及通过Roboflow Inference提供的开源推理服务器,可以构建出功能强大的计算机视觉应用。本文将介绍如何利用Roboflow与GPT-4结合,实现视觉相关的多种应用场景。

零样本分类是一种无需训练即可对图像进行分类的技术。例如,可以上传一张院子的图片,然后通过模型来判断图片中是集装箱、装卸码头还是院子中的其他环境。零样本分类可以应用于多种场景,比如用于训练微调模型的数据标注,或者用于视频帧的分类,识别与特定帧或场景最相关的标签。GPT-4在零样本分类方面表现出色,但也存在一些限制,例如需要互联网连接、API调用费用以及无法在边缘设备上部署。因此,推荐使用开源的零样本模型如CLIP作为起点,CLIP在分类任务上也取得了令人印象深刻的性能,并且可以在自己的硬件上运行。

截至目前,GPT-4尚无法准确识别图像中对象的位置。尽管如此,可以使用像Grounding DINO(目标检测)或Segment Anything(分割)这样的零样本模型来识别对象出现的区域,然后使用GPT-4为每个区域分配特定标签。例如,如果想为构建使用计算机视觉的保险估值应用而标记汽车品牌,可以使用Grounding DINO来识别图像中的汽车,然后使用GPT-4来识别汽车的确切品牌(例如梅赛德斯、特斯拉)。微调模型运行速度比GPT-4或Grounding DINO快,可以部署到边缘设备,并且可以根据视觉需求进行调整。

微调模型和GPT-4可以作为两阶段过程的一部分一起工作。例如,可以使用微调的目标检测模型来检测集装箱上的序列号,然后使用GPT-4来读取图像中的文字。微调模型可以隔离图像中想要读取的确切区域,这使得只能读取相关区域的文字。还可以利用目标检测模型返回的标签,将GPT-4返回的文本映射到每个区域。对于所有OCR任务,建议测试GPT-4是否能够准确读取正在处理的图像中的文字。在测试中,GPT-4在手写测试中表现良好,但在里程表读取中出现了错误。

Autodistill,一个用于使用大型基础视觉模型训练微调模型的开源框架,很快将支持由检索增强生成(RAG)支持的少量样本图像提示。少量样本提示涉及提供额外的示例或参考,以帮助模型学习。通过这个系统,可以创建一个包含图像、文本提示和计算机视觉数据集中的参考图像的GPT-4提示。例如,如果想识别汽车零件是否包含划痕,可以使用Roboflow检索与上传的图像相似的汽车零件。然后,可以将这些汽车零件作为上下文提供给GPT-4提示。这使能够提供更多的上下文,以用于回答问题。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485