在数据科学的征途中,可能已经多次遇到这个问题:大型语言模型(LLM)通常大小达到数十TB,并且是在海量文本数据上训练的,偶尔甚至达到PB级别。这些模型也是参数最多的模型之一,其中“参数”是指模型在学习过程中可以独立改变的值。LLM是过去几年数据科学家和数据科学爱好者搜索最多的主题之一。不同的语言模型可以用于执行不同的自然语言处理(NLP)和机器学习(ML)任务,如分类、摘要、翻译、问答等。统计语言模型(Language Model)是一种对词序列进行概率分布的语言模型。它为给定长度为m的序列分配一个概率P。语言模型提供了上下文,以区分发音相同的词和短语。每年,都有新的语言模型出现,创造了新的基准。每个模型中的参数数量也在增加。
在过去的几年里,大型语言模型的大小每年增加了十倍。这开始类似于另一个摩尔定律。尽管现在已经有了足够的语言模型,但所有的数据科学爱好者都在热切期待新超级英雄的到来——那就是GPT-4。GPT-4的发布日越来越近了。根据目前的预测,该模型将在2022年发布,最有可能在7月或8月。因此,在那个皇室入口之前,应该通过玩转当前的GPT模型,即GPT-3,来让双手变得脏兮兮。在本文中,试图向解释一个非常基础的概念,即在转向玩转GPT模型之前需要理解的概念——提示工程(Prompt engineering)。