在人工智能领域,大型语言模型(LLM)如GPT-3等,以其卓越的自然语言处理和内容生成能力而闻名。然而,要充分发挥它们的潜力,需要深入理解它们的复杂工作机制,并采用有效的技术,如微调,来优化它们的性能。作为一名对深度学习模型研究充满热情的数据科学家,踏上了探索使这些模型脱颖而出的技巧和策略的旅程。在本文中,将带了解创建高质量数据、构建有效模型以及在现实世界中最大化它们效用的一些关键方面。
当深入LLM的世界时,重要的是要认识到它们应用的阶段。对而言,这些阶段形成了一个知识金字塔,每一层都建立在前一层的基础上。基础模型是基石——它是一个擅长预测下一个词的模型,类似于智能手机的预测键盘。当将这个基础模型通过与任务相关的数据进行微调时,魔法就发生了。这就是聊天模型发挥作用的地方。通过在聊天对话或指导性示例上训练模型,可以诱导它表现出类似聊天机器人的行为,这是各种应用的强大工具。
安全性至关重要,特别是因为互联网可能是一个相当粗鲁的地方。下一步涉及从人类反馈中学习的强化学习(RLHF)。这个阶段使模型的行为与人类价值观保持一致,并保护它免于提供不适当或不准确的回应。当进一步向上移动金字塔时,遇到了应用层。在这里,LLM与数据库连接,使它们能够提供有价值的见解,回答问题,甚至执行代码生成或文本摘要等任务。最后,金字塔的顶峰涉及创建能够独立执行任务的代理。这些代理可以被认为是在特定领域(如金融或医学)表现出色的专门LLM。
数据质量在LLM的有效性中起着关键作用。这不仅仅是关于拥有数据;而是关于拥有正确的数据。例如,“LIMA”方法表明,即使是一组精心策划的小型示例也可以胜过更大的模型。因此,重点从数量转移到质量上。
“Distil”技术提供了另一个有趣的途径。在微调期间通过在答案中添加理由,正在教模型“什么”和“为什么”。这通常会导致更健壮、更连贯的回应。
Meta的巧妙方法,即从答案中创建问题对,也值得注意。通过利用LLM基于现有解决方案制定问题,这种技术为更多样化和有效的训练数据集铺平了道路。
一个特别引人注目的技术涉及从答案中生成问题,这个概念乍一看似乎是矛盾的。这种技术类似于逆向工程知识。想象一下,有一段文本,想要从中提取问题。这就是LLM大放异彩的地方。
例如,使用像LLM Data Studio这样的工具,可以上传一个PDF,工具将根据内容产生相关的问题。通过采用这样的技术,可以有效地策划数据集,赋予LLM执行特定任务所需的知识。
# 假设有一个1.3亿参数的模型,从头开始训练在一组8个A100上仅用四天。
# 使用GPT 3.5生成合成数据。进入“phi-1”,这个模型系列名称引起了人们的兴趣。
# 记住,这是预微调领域,伙计们。魔法发生在处理从文档字符串创建Pythonic代码的任务时。
让谈谈扩展法则。想象它们是控制模型增长的规则——更大通常意味着更好。但是,等等,因为数据质量作为游戏规则改变者介入。这个小秘密?一个更小的模型有时可以胜过它的更大对手。请鼓掌!GPT-4在这里抢走了风头,成为至高无上的。值得注意的是,WizzardCoder以略高的分数出现。但等等,压轴戏是phi-1,这个小组中最小的一个,超越了所有人。这就像一个弱者赢得了比赛。
记住,这场表演是关于从文档字符串中制作Python代码的。Phi-1可能是代码天才,但不要要求它使用GPT-4来构建网站——那不是它的专长。说到phi-1,这是一个1.3亿参数的奇迹,通过在70亿个标记上进行80个周期的预训练而形成。混合盛宴由合成生成和过滤的教科书质量数据集设置舞台。再加上一点微调的代码练习,它的性能飙升到新的高度。
让停下来探索模型倾向的奇怪案例。听说过阿谀奉承吗?那就是那个总是对不太好的想法点头的无辜办公室同事。结果表明,语言模型也可以表现出这样的倾向。以一个假设的场景为例,声称1加1等于42,同时坚称数学能力。这些模型被编程为取悦,所以它们实际上可能会同意。DeepMind进入现场,揭示了减少这种现象的途径。
为了遏制这种倾向,出现了一个聪明的修复方案——教模型忽略用户意见。通过呈现它应该不同意的实例来削减“是人”特质。这是一段旅程,记录在一份20页的论文中。虽然不是幻觉的直接解决方案,但这是值得探索的平行途径。