谷歌在2023年的I/O大会上推出了一款革命性的多模态语言模型AudioPaLM,该模型融合了谷歌的大型语言模型PaLM-2和他们的生成音频模型AudioLM的能力。AudioPaLM建立了一个全面的框架,无缝整合了文本和口语语言,推动了语言理解和生成的边界。
AudioPaLM代表了语言处理的一个重大进步,因为它结合了基于文本的语言模型和音频模型的优势。它的应用范围非常广泛,包括语音识别和语音到语音翻译。借助AudioLM的专长,AudioPaLM在捕捉非语言线索方面表现出色,例如说话者识别和语调。同时,它整合了像PaLM-2这样的基于文本的语言模型中嵌入的语言知识。这种多模态方法使AudioPaLM能够处理涉及语音和文本的各种任务。
AudioPaLM的核心是一个强大的大规模变换器模型。在现有的基于文本的语言模型的基础上,AudioPaLM通过专门的音频标记扩展了其词汇量。通过训练一个单一的解码器模型,能够处理语音和文本任务的混合,AudioPaLM将传统上分开的模型整合到一个统一的架构中。这种方法使模型在语音识别、文本到语音合成和语音到语音翻译等任务中表现出色,为多模态语言处理提供了一个多功能的解决方案。