是否曾想过,只需写下一个想法或愿望,计算机就能为完成剩余的写作?如果答案是肯定的,那么GPT-3就是解决方案。GPT-3,即第三代生成预训练变换器(Generative Pre-trained Transformer 3),是由位于旧金山的人工智能研究实验室OpenAI开发的自回归语言模型,它使用深度学习技术生成类似人类的文本。GPT-3是目前已知最大的人工神经网络,其家族模型的工作方式类似于手机中的自动完成功能,尝试预测输入的缺失部分。GPT-3目前处于私有测试阶段,微软已宣布与OpenAI达成协议,授权使用GPT-3。值得注意的是,GPT-3是建立在微软Azure云基础设施上的超级计算机上构建的。
数据是任何机器学习或AI模型的燃料,GPT-3依赖于什么数据?GPT-3几乎被整个互联网的数据所喂养。它在Common Crawl数据集上进行了大量训练,该数据集单独占据了GPT-3训练数据的60%,除此之外还包括维基百科等。GPT-3包含1750亿个参数,并经过了45TB数据的训练。一个模型的好坏取决于提供给它的数据,而GPT-3在数据规模上无疑是出色的,但其数据质量只有在全面投入使用后才能得知,也可以讨论数据使用的偏见和模型偏见。但有一点是肯定的,GPT-3拥有大量的数据。
OpenAI的研究人员和工程师训练了一个大规模的无监督语言模型,该模型能够生成连贯的文本段落。这是迄今为止最大的神经网络。GPT-3展示了卓越的自然语言处理能力,因为训练参数非常庞大。上下文学习的结果表明,更大的模型能够实现更高的准确性。GPT-2(2019年2月发布)在40GB的文本数据上进行了训练,拥有15亿个参数。它在三种条件下进行了评估:零样本学习、单样本学习和少样本学习。GPT-2在零样本和单样本学习中取得了良好的结果,在少样本学习中超越了需要微调的谷歌BERT等模型。下图显示了基于参数和学习的模型准确性。更大的模型越来越有效地利用上下文信息。大型模型的“上下文学习曲线”更陡峭,展示了从上下文信息中学习任务的改进能力。