基于像素的语言模型PIXEL解析

在自然语言处理(NLP)领域,分词器是将文本分解成可处理单元的关键工具。然而,PIXEL(Pixel-based Encoder of Language)模型提出了一种新颖的方法,它通过将文本渲染成图像来消除分词器的需要,从而实现基于正字法相似性或像素共激活的跨语言表示转移。本文将深入探讨这一概念,该概念最初由Phillip Rust等人提出。

PIXEL模型的核心特点

PIXEL模型是一种无需分词器的预训练语言模型,它将文本渲染为图像,使得跨语言的表示转移成为可能。这种模型不是预测一个token分布,而是重建被遮蔽区域的像素。PIXEL模型在与BERT相同的英语数据上进行训练,并在包括非拉丁文字在内的多种语言上进行句法和语义任务的评估。

PIXEL模型在处理非拉丁文字的句法和语义处理任务上表现优于BERT,但在处理拉丁文字时略逊于BERT。此外,PIXEL对嘈杂文本输入的鲁棒性更强,进一步证实了用像素建模语言的有效性。

为什么需要类似PIXEL的模型

传统的语言模型通常定义在有限的输入集上,这在尝试扩展支持语言数量时会导致词汇表瓶颈。解决这一瓶颈需要在嵌入矩阵中可表示的内容和输出层的计算挑战之间进行权衡。

方法概述

PIXEL基于Masked Autoencoding Visual Transformer(ViT-MAE)构建。ViT-MAE是一个基于Transformer的编码器-解码器模型,训练目标是重建被遮蔽图像块中的像素。它包括三个关键组件:一个文本渲染器,将文本绘制成图像;一个编码器,编码渲染图像中未被遮蔽的区域;以及一个解码器,重建遮蔽区域的像素级细节。

PIXEL没有词汇嵌入层,而是将文本渲染为固定大小的块序列,并使用视觉Transformer编码器处理这些块。PIXEL在重建遮蔽块的像素时也不需要计算成本高昂的输出层。本质上,PIXEL消除了瓶颈约束,而不需要付出过长序列的代价。

PIXEL模型的训练目标

训练PIXEL模型的主要目标是重建遮蔽块的像素,而不是预测token分布。PIXEL模型在与BERT相同的英语数据上进行训练,并在包括各种非拉丁文字在内的多种语言上进行句法和语义任务的评估。

这种方法的一个优势是,它可以处理不同的语言、表情符号等,而不需要嵌入表的大小爆炸;这种方法不包括任何预定义的词汇表。

PIXEL模型的微调

PIXEL可以像BERT这样的编码器一样进行微调,只需将PIXEL解码器替换为合适的分类头部即可。此外,通过截断或插值正弦位置嵌入,可以微调比529块短或长的序列。

PIXEL解码器不需要计算昂贵的子词词汇表上的softmax,甚至不需要子词嵌入权重。PIXEL使用归一化均方误差(MSE)像素重建损失进行训练,该损失衡量了归一化目标图像块和重建块之间的差异。这种损失只针对被遮蔽和非空白(文本)块计算。

PIXEL的Gradio演示

研究人员还创建了以下PIXEL的Gradio演示,托管在Hugging Face Spaces上。要深入了解所提出的模型的有效性,可以玩转示例,或者简单地输入自己选择的任何文本。还可以尝试调整超参数,如“Span masking ratio”、“Masking span length”和“random seed”。

PIXEL的结果

PIXEL在各种常见的NLP任务上进行了微调。它在英语以及未见语言的句法和语义处理能力上进行了评估,评估结果如下:

i) 句法任务:表1显示了词性标注和依存句法分析的结果。在单语言设置(ENG)中,BERT的表现略优于PIXEL。然而,PIXEL在其他语言中的表现超过了BERT。

ii) 语义任务:表2展示了NER任务的结果。值得注意的是,BERT在其预训练语言ENG中一贯优于PIXEL。同样,这一观察结果也适用于使用拉丁文字的语言。

iii) 正字法攻击:非正式文本,通常在社交媒体上使用,经常包含正字法噪声,如拼写错误和其他变体。为了评估PIXEL对文本噪声和变体的鲁棒性,研究人员进行了Zeroé基准测试,该测试涵盖了各种低级别的正字法攻击,如表4所示。

研究结果(如图4所示)表明,PIXEL比BERT更能抵抗这些攻击中的大多数。

1. PIXEL主要在拉丁文字的英文文本上进行预训练。然而,英语可能不是跨语言转移的最佳源语言。

2. PIXEL似乎比基于子词的预训练语言模型(如BERT)样本效率低。PIXEL在句法任务上表现良好,经过与BERT相同数量的步骤/数据点预训练后;然而,它在语义任务上仍然落后。

3. 处理从右到左书写的语言存在一些困难。PIXEL目前从后向前解释这些语言中的句子的方式可能会导致它学习到不足以用于句子分隔和位置嵌入的特征。

4. PIXEL不能用于语言生成任务,因为无法从预训练的解码器生成离散的单词。

5. 从文件中读取文本比将文本渲染为图像需要更少的磁盘空间。这可以通过缓存数据集的压缩格式或即时渲染图像来解决。然而,即时渲染图像会为多轮训练带来额外的开销。

1. PIXEL是一种无需分词器的预训练语言模型,它将文本渲染为图像,允许表示任何可以使用其文本渲染器排版的书面语言。

2. PIXEL模型在与BERT相同的英语数据上进行训练,并在包括各种非拉丁文字在内的多种语言上进行句法和语义任务的评估。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485