在人工智能领域,迎来了一项突破性的进展——Unified-IO 2,这是一个自回归多模态模型,它重新定义了AI的边界。Unified-IO 2能够理解和生成包括图像、文本、音频和动作在内的多种数据模态。通过共享的语义空间和单一的编码器-解码器变换器模型,它展现了无与伦比的能力,克服了训练复杂模型的挑战。
Unified-IO 2采用了一种新颖的方法,将输入和输出标记化到一个共享的语义空间中,并通过单一的编码器-解码器变换器模型进行处理。这种统一的方法使其与众不同,允许无缝地导航各种模态的复杂性。该模型能够处理从图像和文本生成到音频和动作输出的多种任务,展示了其专业性。
在多样化模态的训练中遇到的挑战,导致了对稳定模型训练的架构增强的提议。该模型从零开始在广泛的多模态预训练语料库上进行训练,整合了各种来源。多模态混合去噪器的目标促进了跨多个模态的自监督学习信号,确保了模型的适应性。
Unified-IO 2在超过35个基准测试中表现出色,涵盖了图像生成和理解、自然语言理解、视频和音频理解,甚至是机器人操作。值得注意的是,它在通用鲁棒图像任务(GRIT)基准测试中的性能超越了前身2.7个百分点。该模型能够遵循自由形式的指令,突显了其鲁棒性。
Unified-IO 2在GRIT基准测试中的表现令人瞩目,展示了其在分类、定位、分割和关键点估计方面的专长。该模型的多功能性扩展到了图像和文本生成、音频合成和动作预测,将Unified-IO 2定位为真正的多任务奇迹,在各个领域超越了竞争对手。
Unified-IO 2的能力不仅限于熟悉的基准测试,还进入了新的领域,如文本到图像生成、文本到音频生成和动作生成。超越竞争对手,该模型强调了其在多样化任务中的竞争力,标志着其在处理复杂挑战中的多功能性和适应性。