ImageBind:多模态嵌入模型

人工智能领域,单一模态的模型已经取得了显著的进展。例如,像YOLO这样的模型通过处理图像来生成预测,而GPT-3.5则处理文本数据生成文本。然而,人们对于能够结合多种不同模态(如音频和图像)的模型,即所谓的多模态模型,表现出了浓厚的兴趣。Meta Research推出的DALL-E模型能够接受文本提示并生成图像,而Grounding DINO则接受文本提示生成边界框。尽管如此,这些模型仅跨越了两种模态;在前述的例子中,结合了文本和图像模态。

Meta Research最新推出的嵌入模型ImageBind,正在开创一种新的AI嵌入方法,它允许编码来自多种不同模态的信息,包括图像、文本、音频和深度信息。这些传统上各自独立的模态被整合到单一空间中,从而开启了从高级语义搜索到与模型交互的新方式。

ImageBind简介

ImageBind是由Meta Research在2023年5月发布的嵌入模型,它结合了六种模态的数据:图像和视频、文本、音频、热成像、深度和IMU(包括加速度计和方向传感器)。使用ImageBind,可以在一个模态中提供数据——例如音频——并找到不同模态中的相关文档,如视频。

通过ImageBind,Meta Research展示了多种模态的数据可以在同一嵌入空间中结合,从而实现更丰富的嵌入。这与以往的方法不同,以往的嵌入空间可能只包含一种或两种模态的数据。在本文的后续部分,将讨论ImageBind嵌入的实际应用。

ImageBind工作原理

ImageBind通过成对数据进行训练。每一对数据将图像数据(包括视频)映射到另一种模态,并将结合的数据用于训练大型嵌入模型。例如,使用了图像-音频配对和图像-热成像配对。ImageBind发现,可以使用它们在训练中使用的图像数据来学习不同模态的特征。

ImageBind的一个显著结论是,将图像与另一种模态配对,然后将结果结合在同一嵌入空间中,足以创建一个多模态嵌入模型。以前,人们需要有单独的模型来映射不同的模态。

ImageBind的嵌入可以与其他模型结合,直接利用生成性AI模型以及ImageBind。在ImageBind的论文中,Meta Research指出,他们使用了预训练的DALLE-2扩散模型(私有)并用ImageBind的音频嵌入替换了提示嵌入。这使得研究人员能够直接使用DALLE-2和语音生成图像,无需中介模型(即语音到文本)。

ImageBind的应用

像所有嵌入模型一样,ImageBind有许多潜在的用例。在本节中,将讨论ImageBind的三个主要用例:信息检索、零样本分类和将ImageBind的输出连接到其他模型。

可以使用ImageBind构建一个跨模态的信息检索系统。为此,需要在支持的模态中嵌入数据——如视频、深度数据和音频——然后创建一个搜索系统,该系统在任何模态中嵌入查询并检索相关文档。

可以拥有一个搜索引擎,允许上传照片并显示与该图像相关的所有音频材料。这在观鸟活动中非常有用。自然爱好者可以输入他们听到的鸟鸣声,搜索引擎可以返回存储的最接近的图像文档。反之,爱好者可以拍摄一张鸟的照片并检索包含其叫声的音频剪辑。

ImageBind嵌入可以用于零样本分类。在零样本分类中,将数据片段嵌入并输入模型以检索与数据内容相对应的标签。在ImageBind的情况下,可以对音频、图像和其他支持的模态中的信息进行分类。

此外,ImageBind支持少样本分类,可以在运行分类之前向模型发送少量数据示例,以在特定任务上获得更好的性能。

根据Meta的总结博客文章,ImageBind在≤四样本分类的top-1准确率上实现了大约40%的准确率提升,与Meta的自监督和监督AudioMAE模型相比。

Meta尝试使用ImageBind嵌入允许音频到图像的生成与DALLE-2一起使用。虽然这是使用私有模型完成的,但实验显示了使用ImageBind嵌入进行生成性AI和增强型对象检测器的能力。

有了ImageBind,可以为生成性AI模型提供多个潜在的输入——音频、视频、文本——而无需单独的翻译逻辑,例如中介模型将输入数据转换为文本以用于文本嵌入模型。

在另一个例子中,Meta使用ImageBind计算的音频嵌入与Detic(一个对象检测模型)一起使用。Meta用他们的音频嵌入替换了CLIP文本嵌入。结果是一个可以接受音频数据并返回与音频提示相关的检测的边界框的对象检测模型。

如何开始使用ImageBind

要尝试跨不同模态检索图像,可以使用Meta Research发布的ImageBind游乐场。这个游乐场提供了一些预制的示例,展示了信息检索的实际应用。

ImageBind是开源的。提供了一个“imagebind_huge”检查点供项目使用。在项目的README中,有示例显示如何将文本、图像和音频数据输入ImageBind。这段代码是开始使用ImageBind的好方法。模型及其配套权重在CC-BY-NC 4.0许可下授权。

有了这个仓库,可以构建自己的分类器和使用ImageBind的信息检索系统。虽然README中没有为此提供说明,但也可以尝试将ImageBind嵌入与其他模型结合使用,如Meta使用音频嵌入与Detic的示例。

ImageBind是Meta Research今年早些时候发布的一系列与视觉相关的模型中的最新产品,继DINOv2和Segment Anything之后。ImageBind创建了一个联合嵌入空间,编码来自六种模态的信息,证明了不同模态的数据不需要为每个模态单独的嵌入。

该模型可以用于跨模态的高级信息检索和零样本及少样本分类。当与其他模型结合时,嵌入可以用于对象检测和生成性AI。

常见问题解答

ImageBind的权重有多大? 与ImageBind一起发布的imagebind_huge检查点是4.5 GB。这是与模型一起发布的唯一模型权重检查点。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485