近日,学术界发布了一个具有里程碑意义的PRESTO数据集。这个数据集包含了超过550,000个人类与虚拟助手之间的多语言对话,旨在为更真实的模型训练提供便利。通过解决自然语言理解(NLU)任务中的众多挑战,该数据集旨在优化语言模型的性能。
随着Google助手、Alexa和Siri等虚拟助手的广泛流行,研究人员开始探索任务导向对话。然而,现有的数据集并未捕捉到用户痛点的广泛范围,限制了学术研究在该领域的潜在影响。尽管创建了旨在解决这些限制的定制数据集,但它们仍然缺乏有效模型训练所需的典型语言现象。因此,导致模型表现不佳,用户对助手交互的满意度降低。
2023年3月17日,一个多学科团队介绍了PRESTO。这是一个涵盖六种语言(德语、英语、西班牙语、法语、印地语和日语)的多语言对话数据集。PRESTO包含了在现实世界NLU任务中常见的多样化挑战,例如不流畅性、代码切换或混合,以及用户修订。
该数据集独特且有价值。它提供了由每种语言的母语者提供的三种类型的结构化上下文:笔记、联系人和带有解析的用户话语。此外,PRESTO还包括注释,识别带有用户修订的对话。因此,通过改善自然语言理解,帮助开发更好的虚拟代理。
PRESTO解决了代码混合的普遍问题。先前的研究表明,双语用户在与虚拟助手互动时经常切换语言。数据集中约14%包含代码混合的话语,并在双语数据贡献者的帮助下进行了注释。此外,数据集还包含了包含不流畅性的所有六种语言的对话,例如重复的短语或填充词。这有助于确保资源的多样性和全面性。
研究人员使用基于mT5的模型在PRESTO上进行训练,并开发了明确的测试集,以单独评估模型性能,重点关注每种现象,如用户修订、代码切换和不流畅性。结果表明,当训练集中缺少目标现象时,零样本性能较差。因此,强调了将此类话语纳入以提高性能的必要性。研究还揭示了虽然某些现象,如代码混合,需要大量的训练数据,但其他现象,如用户修订和不流畅性,可以用少量样本有效建模。
PRESTO标志着解析复杂和现实用户话语的重大进展。该数据集通过包含各种用户痛点的对话,填补了NLP研究中的一个重大空白。Google Research预计学术界将利用PRESTO进一步发展自然语言理解(NLU),并解决用户与虚拟助手互动时面临的日常挑战。
PRESTO数据集的关键创新之一是其能够解决多语言对话的固有复杂性。通过涵盖六种不同的语言,研究人员可以深入了解虚拟助手如何更好地理解和响应说多种语言的用户。这一进步可以改善整体用户体验,并创造出更包容的虚拟助手系统,以满足多样化的语言需求。
包括笔记、联系人和带有解析的用户话语等结构化上下文,使得在PRESTO上训练的模型能够更深入地理解用户互动周围的上下文。这种更丰富的上下文理解能力使虚拟助手能够更准确、更高效地响应用户,从而实现更自然、更有帮助的互动。