计算机视觉领域的基础模型:Florence模型解析

在人工智能的领域中,计算机视觉一直是一个充满活力且不断发展的分支。最近,微软发布了一个名为Florence的基础模型,它在多个计算机视觉任务中树立了新的标杆。这个模型不仅涵盖了空间、时间和模态的维度,还展示了在各种任务中的适应性和有效性。

在自然语言处理(NLP)领域,预训练模型已经成为一种主流的研究范式,例如通过语言模型预训练然后针对特定任务进行微调。这种范式可以追溯到早期的词向量,随后由Elmo等模型进一步发展,并最终扩展到BERT等基于变换器的模型。然而,在计算机视觉领域,除了在ImageNet或COCO等有限数据集上进行有监督任务的预训练之外,还没有形成类似的预训练过程。

OpenAI的CLIP模型是计算机视觉领域的第一个基础模型,它通过在4亿张图像-标题对上进行训练,学习了文本和图像之间的语义相似性。这种预训练过程产生了非常强大的图像和文本特征,可以用于各种下游任务,包括搜索和零样本分类。CLIP模型在计算机视觉中的新颖之处在于它利用视觉变换器对图像进行编码,这是从NLP领域引入的变换器技术。

Florence模型的研究团队旨在创建一个能够适应计算机视觉不同任务维度的基础模型。他们定义了模型必须涵盖的三个维度:空间(从粗到细,如图像分类到语义分割)、时间(从静态到动态,如图像到视频)、模态(如RGB到RGB+深度)。在计算机视觉任务类型方面,Florence适应了零样本图像分类、图像分类线性探针、图像分类微调、文本到图像检索、目标检测、文本到视频检索和视频动作识别等多种任务。

为了预训练他们的基础模型核心,Florence的使用了名为FLD-900M的大型图像-标题数据集,包含9亿张图像。他们的训练过程遍历数据集样本,模型的任务是挑选出哪些图像与哪些标题相匹配。模型架构的训练在512个NVIDIA-A100 GPU上运行了10天。

Florence模型在Roboflow Universe数据集上的表现可能是对计算机视觉实践者最相关的部分。在制作目标检测模型时,通常需要收集完整的数据集并在此基础上训练模型。如果模型能够立即泛化而不需要额外的训练,即所谓的“零样本”,那将是非常理想的。为了测试他们模型的泛化能力,Florence的研究人员对几个流行的Roboflow Universe数据集进行了基准测试。

在这次评估中,有两个重要的发现:1)尽管模型具有泛化能力,但它仍然从数据集中更多的图像曝光中获益匪浅。2)当对象更常见时,例如宠物,模型在零样本设置中的表现更好。

遗憾的是,截至本文撰写之时,Florence的代码和模型权重尚未开源。在此期间,如果渴望亲自尝试基础模型,建议尝试CLIP。

像CLIP和Florence这样的基础模型正在推动最先进的计算机视觉模型的边界,但它们是否会在工业界产生重大影响?观点是,它们的影响将是有限的,并且受到技术限制的总结。对于不需要低延迟推理速度的商业应用,基础模型将被那些可以使用其广泛范围或针对特定领域进行微调的应用程序所利用。它们将被部署在能够处理其内存需求的大型云CPU和GPU服务器上。

对于需要实时推理的计算机视觉模型,基础模型的影响将很小,因为边缘纳米模型(如YOLOv5)占据主导地位。这种情况将一直持续到基础模型研究人员开始关注为了推理速度而进行模型复杂性权衡。

微软还发布了Florence-2,这是一个轻量级的视觉-语言模型,它在MIT许可下开源。该模型展示了强大的零样本和微调能力,涵盖了如标题生成、目标检测、定位和分割等任务。尽管体积小,但它在结果上与大得多的模型如Kosmos-2不相上下。该模型的优势不在于复杂的架构,而在于大规模的FLD-5B数据集,包含1.26亿张图像和54亿个全面的视觉注释。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485