自然语言处理(NLP)技术的进步为新一代生成式AI聊天机器人奠定了基础。现代聊天机器人依赖于NLP架构来理解用户输入的自然语言提示,并帮助聊天机器人生成回应。这些新能力依赖于2017年由谷歌研究人员开发的“变换器”模型。
NLP在现代聊天机器人中起着核心作用,依赖于BERT和GPT等变换器模型进行语言理解、多轮对话和多语言支持。尽管NLP模型取得了进步,但在处理俚语、拼写/语法错误和伦理偏见方面仍面临局限性,这常常导致不准确或有偏见的输出。
当前NLP领域包括用于语言理解的模型(例如BERT、GPT)、多轮对话机制和多语言支持,这对于全球商业应用至关重要。
BERT模型是双向模型,使用输入与输出之间的联系。输入文本经过编码器向量化后,解码器关注输入的不同部分并输出匹配的语句。这些模型使用了“Attention is All You Need”论文中的自注意力机制。
BERT = Bidirectional Encoder Representations from Transformers
GPT是单向的,使用变换器架构中的解码器。这使用了掩蔽自注意力,包括在注意力计算中包含的标记,同时忽略基于它们在序列中的位置的未来标记。
GPT = Generative Pre-trained Transformer
XLNet和PaLM模型通过改变读取标记的顺序,允许模型根据动态分解读取标记,从而在单向模型中实现双向理解。
XLNet = eXtreme Language Model
PaLM = Pattern-Exploiting Training
多轮对话对于现代聊天机器人至关重要。人们希望与ChatGPT和Claude等进行更长时间的对话,并记住之前说过的内容。为了实现多轮对话,需要添加两种能力:上下文理解和对话策略。
上下文理解:如果用户希望在对话继续时更新他们的初始请求,聊天机器人需要记住对话的上下文。现代聊天机器人通过将用户提交的每个请求添加到结构化数据中来实现这一点,以提供准确的信息。
对话策略:有时,用户请求聊天机器人做得太具体或输入的提示超出了聊天机器人的业务政策。当这种情况发生时,聊天机器人会参考一些内部对话规则或对话策略。在业务中,这通常意味着聊天机器人查询数据库,并从用户那里询问澄清问题,直到请求符合其业务政策。
由于LLMs(大型语言模型)是为通用商业用例构建的,因此整合多语言支持至关重要。这允许现代聊天机器人在全球业务中部署,而无需针对特定地区进行额外训练。
聊天机器人通过以下过程回答多语言问题:将提示转换为数据、任务解决和生成输出。
LLMs = Large Language Models
聊天机器人将任何语言的提示放入它理解的语言框架中,并基于英语语言框架解析该数据。聊天机器人用英语思考提示的答案,同时结合模型中的多语言神经元数据。LLMs使用自注意力和前馈机制得到答案。然后,LLM以数据形式得到答案,并将其翻译回原始查询语言。
一些模型,如Cohere的Aya模型,因为它们在专家策划的多语言数据集上进行了训练,并且“过分强调学术风格文档”,因此在提供多语言支持方面表现出色。
Aya = Cohere's multilingual model
尽管NLP模型发展迅速,但它们在功能上仍存在一些限制。这些包括:
1. 处理俚语:俚语是人类对话的自然部分;然而,许多LLMs难以理解俚语术语。例如,“blazing”在美国指的是“极好的”,但在英国翻译为“愤怒”,大多数LLMs无法处理这种差异。
2. 处理拼写和语法错误:虽然较新的聊天机器人模型可以检测错误,但它们在纠正错误方面存在困难。这可能意味着LLM尝试纠正输入序列,但改变了其含义,给出了错误的回应。
3. 伦理偏见和错误:幻觉和AI偏见是一个持续存在的问题。从本质上讲,由于训练数据集可能对某些哲学有偏见,不太为人所知的细微差别可能会被遗漏。