在机器学习和人工智能领域,多模态变换器模型因其在处理多种数据类型(如图像、文本、音频等)方面的能力而越来越受到重视。这些模型能够从不同模态中学习表示,并在单一模型中进行整合,这对于解决现实世界中的复杂任务至关重要。本文将探讨多模态变换器模型的几个关键问题,以帮助读者更好地理解这一领域,并为即将到来的面试做准备。
CLIP(Contrastive Language Pre-training)模型是一个结合了文本和视觉的神经网络,它通过自然语言监督学习视觉概念。该模型使用了4亿张图像/标题对的数据集,并采用对比学习进行预训练。CLIP模型由图像编码器和文本编码器组成,它们分别创建图像和标题的嵌入。在训练过程中,CLIP通过最大化正确配对的图像和标题/文本嵌入之间的余弦相似度,同时最小化错误配对的相似度,来学习一个多模态嵌入空间。CLIP在零样本图像分类任务中表现出色,与完全监督训练的视觉模型相媲美,同时对新类别更加灵活。
与传统的图像分类方法不同,CLIP训练图像编码器和文本编码器来预测一批(图像,标题/文本)训练样本的正确配对。在测试时,学习到的文本编码器通过嵌入目标数据集类别的描述,合成了一个零样本线性分类器。这种方法避免了在标准图像分类中使用的二进制信息,即类别是否存在,从而保留了更多的信息。
LayoutLM模型专门针对扫描文档(如发票、收据或报告)设计,这些文档信息丰富,因此可以从中提取并编码视觉和布局信息,以识别感兴趣的文本字段。LayoutLM使用修改后的Transformer架构,它接受图像嵌入、LayoutLM嵌入、文本嵌入和2D位置嵌入。2D位置嵌入捕捉文档内标记之间的关系或相对位置,而图像嵌入则捕捉一些视觉特征,如字体方向/样式、类型和颜色。LayoutLM还采用了多任务学习目标,包括掩蔽视觉-语言模型(MVLM)损失和多标签文档分类(MDC)损失,以实现文本和布局的联合预训练。
pg,v = exp(zg,v / T) / Σk=1V exp(zg,k / T)
- CLIP(对比语言预训练)模型结合了文本和视觉。它通过自然语言监督学习视觉概念。
- CLIP由图像编码器和文本编码器组成。图像编码器和文本编码器分别创建图像和标题的嵌入。
- 在传统分类方法中,同时训练图像特征提取器和线性分类器以预测标签。CLIP训练图像编码器和文本编码器以预测一批(图像,标题/文本)训练样本的正确配对。
- LayoutLM联合建模文本和布局信息在扫描文档图像中的交互,这对于许多现实世界的文档图像理解任务很有帮助,包括从扫描文档中提取信息。
- Wav2Vec 2.0是一个用于自监督学习语音表示的模型。它有一个多层卷积特征编码器,包含层归一化和GELU激活,它接受原始音频输入并为T时间步生成潜在语音表示。
- Gumbel-Softmax以完全可微分的方式帮助选择离散的码本条目。