在计算机视觉领域,CLIP网络以其独特的对比预训练方法,实现了类似于GPT-3的零样本学习,这可能是一个颠覆性的进步。CLIP技术使能够设计自己的分类器,无需特定的训练数据,就能在各种计算机视觉任务中达到最先进的结果。
在理解CLIP如何工作之前,先来看看OpenAI试图解决的问题。尽管当前的计算机视觉模型如ResNet、InceptionNet在复杂的图像分类数据集上达到了人类水平的表现,但它们依赖于大量数据集的可用性,这些数据集的创建是困难的。尽管这些最先进的模型在ImageNet等数据集上表现极佳,但当遇到变体或非标准数据时,它们的表现会大幅下降,因为它们只针对基准测试进行了优化,未能适应现实生活场景。
OpenAI团队结合了许多最先进的工作方法,如零样本迁移、自然语言监督和多模态学习。CLIP的工作方式从互联网上容易找到的一批文本和图像对开始。这些文本和图像分别输入到文本和图像编码器中,进行相似性搜索,将图像映射到整个批次中对应的文本。这种图像和文本的对齐是对比预训练方法。在医学成像领域,ConVIRT论文中也采用了类似的方法。
一旦图像和文本匹配,就可以执行零样本预测。在这里,数据集中的所有类别都以特定格式排列,如“一张{classname}的照片”,然后输入到编码器中。类似于对比预训练,图像被传递到编码器,它执行相似性搜索,以确定整个批次中哪个文本与图像匹配,即文本编码器将包含一批“一张{dog}的照片”、“一张{car}的照片”等,CLIP将估计给定图像的最佳配对。例如,可以看到,鳄梨酱类别在101个类别中排名第一,电视在397个类别中排名第一。
CLIP在DALL-E的工作中也扮演着重要角色,因此请确保阅读即将发布的博客,了解DALL-E的详细信息。