在文档生成预训练领域,DocLLM通过整合空间布局信息,超越了传统模型,为视觉复杂的文档处理提供了高效的解决方案。这种创新的方法不仅提高了空间布局理解的能力,而且避免了复杂视觉编码器的需求,专注于从光学字符识别(OCR)派生的边界框信息。
DocLLM引入了一种解耦的空间注意力机制,扩展了标准变换器的自注意力机制。通过将注意力分解为解耦矩阵,模型能够捕捉文本和布局模态之间的交叉对齐。这种创新设计使得DocLLM能够表示文档字段内容、位置和大小之间的对齐关系,解决了不规则布局带来的挑战。
DocLLM的预训练目标专注于文本段落的填充,这种方法针对视觉丰富的文档,有效地处理了不规则布局和混合数据类型。模型对多样化文档结构的适应能力,通过与其他模型相比15%至61%的性能提升得到了证明。