Meta公司在人工智能领域取得了新进展,推出了名为变色龙的多模态大型语言模型(LLM)。这款基于早期融合架构的模型,相较于前代产品,能够更有效地整合不同类型的信息。变色龙模型的推出,标志着Meta在AI领域的竞争力得到了显著提升。
变色龙模型的架构解析
变色龙采用了早期融合的基于令牌的混合模态架构,这使其与传统模型有所不同。与晚融合方法不同,后者是先分别处理不同模态,然后再将它们组合起来,变色龙从一开始就整合了文本、图像和其他输入。这种统一的令牌空间使得变色龙能够无缝地推理和生成交错的文本和图像序列。
Meta的研究人员强调了该模型的创新架构。通过将图像编码成类似于语言模型中的单词的离散令牌,变色龙创建了一个包含文本、代码和图像令牌的混合词汇表。这种设计使得模型能够将相同的变换器架构应用于包含图像和文本令牌的序列。这增强了模型执行需要同时理解多种模态的任务的能力。
训练创新和技术
训练像变色龙这样的模型面临着重大挑战。为了应对这些挑战,Meta的团队引入了几项架构增强和训练技术。他们开发了一种新颖的图像令牌化器,并采用了QK-Norm、dropout和z-loss正则化等方法,以确保训练的稳定性和效率。研究人员还策划了一个包含4.4万亿令牌的高质量数据集,其中包括文本、图像-文本对和交错序列。
变色龙的训练分为两个阶段,模型版本拥有70亿和340亿参数。训练过程在Nvidia A100 80GB GPU上耗时超过500万小时。这些努力使得模型能够以令人印象深刻的效率和准确性执行各种仅文本和多模态任务。
任务表现
变色龙在视觉-语言任务中的表现引人注目。它在图像描述和视觉问答(VQA)基准测试中超越了Flamingo-80B和IDEFICS-80B等模型。此外,它在纯文本任务中也表现出色,达到了与最先进的语言模型相当的性能水平。该模型能够生成交错的文本和图像的混合模态响应,这使其在竞争对手中脱颖而出。