在当今的技术领域,语音识别模型的发展往往依赖于大量的监督数据集,这对于许多资源匮乏的语言来说是一个挑战。为了解决这一问题,卡内基梅隆大学的研究人员提出了一种新的方法,可以创建不需要任何音频数据集或目标语言的发音词典的语音识别系统。这种方法的唯一前提是能够访问目标语言的原始文本数据集或一组n-gram统计数据。
本文将详细介绍这种提出的方法。ASR2K是一个不需要目标语言音频的语音识别流程。唯一的假设是能够访问原始文本数据集或一组n-gram统计数据。ASR2K的语音流程包括三个组成部分,即声学模型、发音模型和语言模型。声学和发音模型使用无监督的多语言模型,与传统流程不同。语言模型则是使用原始文本数据集或n-gram统计数据创建的。
这种方法被用于1909种语言,使用了Crúbadán,这是一个大型的濒危语言n-gram数据库。随后,它在129种语言上进行了测试(34种语言来自Common Voice数据集,95种语言来自CMU Wilderness数据集)。在测试中,仅使用Crúbadán统计数据,在Wilderness数据集上实现了50%的CER(字符错误率)和74%的WER(单词错误率)。当使用10,000个原始文本话语时,这些结果随后提高到了45%的CER和69%的WER。
现代架构通常需要数千小时的目标语言训练数据才能表现良好。然而,全世界有大约8000种语言,其中大多数缺乏音频或文本数据集。一些尝试通过利用自监督学习模型的预训练特征来减少训练集的大小。然而,这些模型仍然依赖于少量的配对监督数据进行单词识别。
最近,考虑到无监督机器翻译的成功,一些工作正在将无监督方法应用于改善语音识别。这些模型应用对抗学习自动学习音频表示和音素单元之间的映射。尽管这些最新方法取得了成功,但所有这些模型都依赖于目标语言的一些音频数据集(标记或未标记),这严重限制了目标语言的范围。
ASR2K的语音流程包括声学模型、发音模型和语言模型。声学模型仍然需要识别目标语言的音素,即使这些语言在训练集中未见过。发音模型是一个G2P(字形到音素)模型,可以预测给定字形序列的音素发音。声学和发音模型都可以使用高资源语言的监督数据集进行训练,然后借助一些语言学知识应用于目标语言。声学和发音模型使用多语言模型,可以在零样本学习设置中无监督使用,与传统流程不同。