对话摘要技术是自然语言处理(NLP)领域中的一个挑战性问题。随着在线消息传递、IRC、会议平台的普及以及自动语音识别系统的广泛应用,数字对话记录的数量急剧增加,人们自然产生了对对话内容进行简洁总结的需求。对话摘要可以分为提取式和抽象式两种主要方法。本文将探讨如何将这两种方法结合起来,以生成对话的摘要。
人类是社会性动物,通过交流思想、分享信息和制定计划来互动。文本和语音是两种常见的交流媒介,但大多数情况下是语音。随着数字对话在在线消息传递、IRC、会议平台中的广泛发生,以及自动语音识别系统的普及,大量的会议记录应运而生。因此,自然而然地产生了对对话内容进行简洁总结的需求。已经提出了多种生成摘要的方法,其中对话摘要的一个非常标准且关键的应用是会议摘要的生成。
传统方法通常使用提取式摘要方法,这些方法擅长于从文档中提取重要的短语。随着技术的发展,一些新的技术出现了,它们基于变换器模型,能够生成连贯且具有主观性的摘要。鉴于研究的可用性和当前模型的能力不足,提出了一种新的层次模型,即从提取式到抽象式的摘要方法,该方法首先进行提取式摘要,然后进行抽象式摘要,并给出了最高的ROUGE分数。
最佳提取器是一个两步层次模型,它使用预训练的BERT模型对每个句子进行编码,然后应用双向LSTM来创建每个话语的句子嵌入,最后传递给一个无监督的聚类机制以检测关键句子。对于抽象模块,最佳模型是微调过的PEGASUS模型,用于生成抽象摘要。
提出了一种新的长摘要工作方法,在AMI会议数据集上超越了最先进的结果。让深入了解方法论。
使用的方法是一种两步层次的提取式到抽象式摘要生成方法,其中使用了基于变换器架构的PEGASUS,其基础架构是标准的变换器编码器-解码器,具有一种新的预训练技术,其中整个句子都用[MASK]标记和其他一些随机标记进行遮蔽。编码器-解码器模型的输入是在处理AMI输入后生成的512长度的嵌入,这是在基于BERT的提取式摘要器中应用k均值算法对BERT句子级嵌入进行处理的结果。使用了这种方法的两种变体,一种是带微调的,另一种是不带微调的。
提取式摘要方法本身分为两个步骤,其中输入文本被转换为BERT句子嵌入,然后通过一个无监督算法进一步传递,以聚类最重要的句子。这些聚类基本上是输入文本中的句子集合,代表了输入中最相关的句子。
无监督的提取式摘要生成技术之前已经尝试过,并且已经展示了聚类技术如何帮助选择文本的关键部分。由于这种提取技术是无监督的,值得一提,对平行注释数据的需求突然消失了,可以在大型语料库上进行训练。如图1所示,左侧部分显示了提取式摘要生成器,然后进一步传递给右侧的抽象式摘要生成器。
抽象式摘要生成器是一个基于编码器-解码器的语言模型PEGASUS,用于生成语义上良好的摘要。PEGASUS是一种预训练技术,引入了间隙句子遮蔽和摘要生成。通常,PEGASUS模型的架构包含15层编码器和15层解码器,它们共同考虑文本文档作为输入,在遮蔽后进行处理。他们的假设是,预训练的自监督目标越接近最终的下游任务,微调性能就越好。在讨论的方法中,预训练时,从文档中删除了几个句子,模型的任务是恢复它们。预训练的示例输入是一个带有缺失句子的文档,而输出由缺失的句子连接在一起组成。