在人工智能领域,大型语言模型(LLMs)如ChatGPT因其生成高质量文本的能力而备受瞩目。这些模型在流畅性和连贯性方面表现出色,但在执行复杂操作或逻辑推理时常常出现失误。本文将探讨如何提高这些模型的可靠性,包括一些由OpenAI建议的方法以及其他研究人员提出的技术。
在使用GPT-3时,一个常见的错误是假设其能力在所有上下文中都是固定的。如果GPT-3在回答一个需要简单逻辑的问题时出错,并不意味着它无法进行简单推理。通过更好的提示,可以引导模型朝着期望的输出方向发展,从而偶尔修复GPT-3的问题。
将复杂任务分解为更简单的部分是给予模型如ChatGPT更多时间和空间进行思考的一种方式。将复杂指令分解为更小的子任务可以帮助模型保持对每个子任务的专注,同时也为其提供更多时间来推理每一步。例如,如果要求模型用其原始语言总结一篇长文本,它可能会错误地使用英语。然而,如果将任务分解为更短的子任务,可以引导模型朝着更准确的输出方向发展。
提示模型逐步推理解决方案而不是急于得出结论是提高回复准确性的另一种有效方法。“让逐步思考这个问题”是让模型解释解决方案的最简单方法。这种“思考出声”的策略可以显著增加获得正确答案的可能性。
可以通过多种方式提示模型解释其答案,包括使用少量示例。这种技术涉及展示一些示例,并由谷歌研究人员研究。使用这种方法,可以生成一个解释的数据集,这些数据集可以用来微调模型以达到最佳性能。
为了在任务上获得最佳性能,需要微调一个定制模型。Eric Zelikman、Yuhuai Wu等人在2022年发表了一种创新方法,该方法使用少量示例提示来生成一个解释的数据集,这些数据集可以用来微调模型。目标是使用少量示例提示生成候选解释,并仅保留那些导致正确响应的解释。
将创建解释和答案的单个提示分解为更小的部分是思维链方法的一个扩展。首先,一个提示(“选择提示”)从文本中选择一个相关的子集事实。随后的提示(“推理提示”)得出所选数据的结论。通过交替这些提示,可以产生一个推理循环,导致结论。