在语音识别领域,尤其是会话自动语音识别(ASR)系统中,利用上下文信息已被证明是一种提高识别性能的有效方法。因此,众多方法被提出。然而,现有方法存在一些问题,比如当前话语的识别假设可能因为不可避免的历史识别错误而产生偏差。这是一个需要解决的问题。
为了解决这个问题,研究人员提出了一种音频-文本跨模态表示提取器,本文将对此进行探讨。文章的亮点包括:提出了一种包含两个预训练的单模态编码器(一个预训练的语音模型Wav2Vec2.0和一个语言模型RoBERTa),以及一个跨模态编码器,直接从前面的语音中学习上下文表示。
在训练会话ASR系统时,提取器被冻结以提取前面话语的文本表示;提取的表示随后作为上下文通过注意力机制提供给ASR解码器。从当前和之前的话语中提取的文本表示被发送到ASR的解码器模块,这在三个普通话会话数据集(MagicData、DDT和HKUST)上将相对CER降低了高达16%。
现有方法的问题在于,它们通常依赖于从对话中前面话语的转录中提取上下文信息。然而,在推理过程中使用的是前面话语的假设,而不是真实的转录文本,以提取上下文表示。因此,当识别当前话语时,历史ASR假设的不准确性可能会引入新的错误,这是一个需要解决的问题。
本文提出的方法是解决上述挑战的。如图1所示,提出了一种会话ASR系统。该系统引入了跨模态表示提取器,它利用预训练的语音模型Wav2Vec2.0和语言模型RoBERTa的优势,并结合跨模态编码器从语音中提取上下文信息。
该会话ASR系统的训练分为两个阶段:第一阶段,训练上下文表示提取器,如图2所示。文本和音频嵌入是从配对的语音和转录中使用文本编码器和语音编码器分别获得的。然后,获得的嵌入被发送到跨模态编码器以提取跨模态表示。通过多任务学习,表示提取器学习不同数据粒度下配对语音和转录之间的相关性。
第二阶段,在多模态表示提取器中的文本编码器被替换。相反,提取器从语音中学习上下文表示。在ASR模块的训练和测试中,上下文表示通过注意力机制并入ASR模块的解码器中。
此外,每个模态的一些输入令牌和序列被随机掩蔽。然后,在跨模态编码器上执行模态缺失或令牌缺失预测,并使用模态级别的CTC损失。通过这种方式,模型捕获特定模态中的双向上下文依赖关系以及两种模态之间的关系。
在训练会话ASR系统时,提取器被冻结以提取前面话语的文本表示;提取的表示随后作为上下文通过注意力机制提供给ASR解码器。在下一小节中,将简要讨论每个组件:
i) 语音编码器:语音编码器由预训练的语音表示模型Wav2vec2.0大型模型组成,该模型在WenetSpeech上进行训练,并包含一个线性层。
ii) 文本编码器:预训练的语言模型RoBERTawwm-ext用作文本编码器,该模型在内部文本数据上进行训练,包括新闻、百科全书和问答网站。
iii) 跨模型编码器(CME):跨模型编码器由三个变换器块组成。从语音编码器和文本编码器获得的语音嵌入(A)和文本嵌入(T)被送入CME以获得高维跨模态上下文化表示。
iv) 上下文Conformer ASR模型:A) Conformer编码器:Conformer结合了自注意力和卷积在ASR任务中,通过自注意力机制学习全局信息的交互,并通过卷积神经网络(CNN)学习局部特征的表示,从而提高性能。Conformer块堆叠在一起作为ASR模型的编码器,每个Conformer块包括一个卷积层(CONV)、一个多头自注意力层(MHSA)和一个前馈层(FFN)。B) 上下文解码器:上下文解码器由一个变换器和一个额外的交叉层组成。首先,生成日常话语和之前话语的文本嵌入。为此,要处理的话语被发送到提取器,以及一个虚拟嵌入。然后,当前文本嵌入与之前上下文嵌入拼接以获得最终上下文嵌入。获得的上下文嵌入被送入每个解码器块,使解码器能够学习文本提取器提取的上下文信息。最后,使用softmax函数通过最后一层解码器的输出预测字符概率。
结果表明,所提出的方法即使仅提取当前话语的上下文表示Ai也能提高识别准确率。在同时包括前话语Ai-1和当前话语Ai的上下文表示后,语音识别性能得到了进一步提高。值得注意的是,在下表1中,AcousticCur指的是使用当前句子的文本嵌入的模型,AcousticCon指的是使用当前句子和之前句子的文本嵌入的模型,“ExtLM”表示在ASR解码中使用的额外语言模型。
表1:各种端到端模型在三个普通话上的性能比较(来源:Arxiv)。
表2:与Wav2vec2.0预训练模型(无LM)的性能比较表明,尽管预训练的Wav2Vec2.0模型与基线模型相比提高了识别准确率,但所提出的模型(AcousticCon)明显取得了更好的结果。这表明所提出的模型利用了预训练模型的表示能力,并成功获得了跨模态文本表示。
表3:历史信息的长度和位置对ASR模型的性能通常有影响。研究了历史长度和位置对HKUST和MagicData集的影响。从表3中可以推断出,与当前句子越相似的句子,对提高当前句子的识别准确率越有帮助。然而,同时输入前两个句子的文本特征并不会产生更好的结果。这可能是由于解码器无法从大量历史数据中学习适当的关注点。
在下表中,AcousticCon_one指的是使用前一句的AcousticCon,AcousticCon_two指的是使用倒数第二句的AcousticCon。
表3:基于历史信息的长度和位置的比较(来源:Arxiv)。