多语言神经机器翻译模型优化方法

在传统的多语言神经机器翻译(MNMT)模型训练方法中,通常在编码器端引入额外的输入标签以指示目标语言,而解码器则使用标准的句首(BOS)标记。微软的研究人员提出了一种简单而有效的方法,用于改善零样本和直接数据情况下的直接(X-to-Y)翻译。这种方法包括修改编码器和解码器的输入标记。在编码器端,源语言和目标语言的标记被增强到输入中,而在解码器端,目标语言的标记被添加,即输入标记被修改为ST-T而不是T-B。这种方法在从头开始训练模型或微调预训练模型时都能获得性能提升

方法亮点

1. 编码器和解码器的输入标记被修改以包含源语言和目标语言的信号,即输入标记被更改为ST-T而不是T-B。

2. 使用所提出的标记,在从头开始训练或微调预训练模型时,性能提升是显著的。

3. 在基于WMT的设置中,零样本直接翻译提高了约1.3 BLEU点,当使用直接数据进行训练时,BLEU点提高了约0.4。在这两种情况下,以英语为中心的性能在WMT21中提高了约3.97。

4. 在低资源设置中,当在X-to-Y领域数据上进行微调时,注意到了1.5至1.7点的提升。

5. 在中等资源设置中,最佳策略是首先使用以英语为中心的数据训练模型,然后添加直接数据。可能需要在两阶段设置中使用更小的X ⇔Y数据集(更少的步骤),而不是从一开始就使用直接数据。

直接翻译的必要性

语言模型通常使用大量数据进行训练,这些数据通常由源语言和目标语言之间仔细匹配的数百万句子组成。对于常用的语言配对,如英语和西班牙语,数据集很容易获得,但对于捷克语和一些鲜为人知的非洲语言呢?大多数模型/数据集以英语为中心,对于捷克语和一些语言来说,并没有大量的平行句子可用。这一事实适用于许多其他不同的源语言和目标语言。由于这一限制,传统上,翻译是从源语言通过一个共同的中介语言(例如,英语)到目标语言进行的。

但是,当使用中介语言进行翻译时,可以很容易地检测到文本所传达的情感和上下文的显著变化。这在将西班牙语等高资源语言翻译成英语时很常见。想象一下,当使用英语作为中介将低资源源语言翻译成目标语言时,翻译准确性会受到多大的影响。为了应对这些挑战,迫切需要制定解决方案,能够直接将一种语言翻译成另一种语言,而不需要中介语言。

方法概述

训练多语言神经机器翻译(MNMT)模型的经典方法包括在编码器端引入额外的输入标签以指示目标语言。同时,解码器使用标准的句首(BOS)标记。在所提出的方法中,编码器和解码器的输入标记被修改以包含源语言和目标语言的信号,即输入标记被更改为ST-T而不是T-B(见图1)。编码器接受源语言和目标语言的标记(S,T),而解码器只接受目标语言的标记(T)。

使用修改后的标记可以增强在没有平行X ⇔Y翻译数据的情况下直接翻译对的性能——仅在以英语为中心的数据(E ⇔X)上训练。值得注意的是,如果从使用基线标记训练的模型开始,并在添加新标记后继续训练,可以获得令人印象深刻的增益。在以下实验中,当基线模型继续使用直接(X ⇔Y)和以英语为中心的训练数据进行训练时,仍然注意到了一些增益,这意味着该方法也适用于非零样本情况。

实验设置

为了验证所提出的方法,实验中使用了24个编码器层、12个解码器层、16个注意力头、前层归一化和RAdam优化器的Transformer编码器-解码器架构作为基础模型。此外,还利用了大小为128,000的词汇表和Sentencepiece分词器。

在初步实验中,使用内部数据构建了一个涵盖10种欧洲语言的模型。后续实验使用了WMT数据和其他涵盖6种语言的公开可用数据。此外,大多数实验使用了以英语为中心的训练数据,一些使用了直接训练数据或领域数据。

1. 中等资源MNMT:

表1展示了在不同设置下微调基础WMT模型时的SacreBLEU得分,其中带钩的箭头(→)表示从父模型继续训练的行。

i) 第一行:

它显示了基础WMT模型在零样本设置下,使用T-B设置的英语中心和直接开发集上的得分。

ii) 第二行:

继续使用新标记训练模型(第1行)在两个开发集上都有所提升,尽管从初步结果来看,提升幅度小于预期。

iii) 第三行:

进一步使用直接数据继续训练基础模型,在直接开发集上取得了令人印象深刻的提升,但在英语中心开发集上的提升较小。

第三和最后一行表明,在添加直接数据后,新标记仍然注意到了一些提升。

在所有这些策略中,最佳策略(第3行)是首先使用以英语为中心的数据训练模型,然后添加直接数据。

此外,图2表明,在两阶段设置中可能需要更小的X ⇔Y数据集(更少的步骤),而不是从一开始就使用直接数据。

图2:X ⇔Y开发集的SacreBLEU(来源:Arxiv)

2. 低资源适应:

在低资源设置中,使用了领域适应示例。一个单独的WMT模型针对每个适应实验使用基线和所提出的标记进行微调:针对德语和捷克语之间,以及从OPUS获得的EMEA、JRC和Tanzil领域。

表2表明,新标记改善了预训练和微调模型。差异取决于方向和领域。这意味着可以从以英语为中心的基线开始,并继续使用新标记进行训练,以创建一个更强的基线模型,该模型改善了不同方向和领域的下游性能。

表2:使用所提出的标记和基线对不同领域进行微调的结果,捷克语⇔德语。(来源:Arxiv)

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485