大型语言模型(LLMs)是能够理解和生成类似人类文本的高级自然语言处理模型。这些模型在语言理解、编程和数学等应用中变得越来越重要。开源LLMs在自然语言处理技术的发展和进步中扮演着关键角色,它们为开放社区和企业提供了获取尖端语言模型的机会,使他们能够为特定应用和用例构建和定制自己的模型。
DBRX特性
由Databricks开发的DBRX是一个开放、通用的大型语言模型(LLM),它为现有的开源LLMs设定了新的最高标准,超越了GPT-3.5,与Gemini 1.0 Pro相媲美。DBRX在各种基准测试中表现出色,包括语言理解、编程和数学。它使用下一个词预测和细粒度的专家混合(MoE)架构进行训练,从而在训练和推理性能上取得了显著改进。
该模型通过API为Databricks客户提供,可以预训练或微调。其效率通过训练和推理性能得到突出,超越了其他已建立的模型,同时大小仅为类似模型的约40%。DBRX是Databricks下一代GenAI产品的关键组成部分,旨在赋能企业和开放社区。
训练DBRX
训练像DBRX这样的强大LLM并非没有挑战。以下是对训练过程的更深入了解:开发像DBRX这样的专家混合模型(MoE)提出了重大的科学和性能障碍。Databricks需要克服这些挑战,以创建一个能够高效训练DBRX级模型的强大管道。
DBRX的训练过程在计算效率上取得了显著改进。以DBRX MoE-B为例,它是DBRX家族中的一个较小模型,与其它模型相比,它需要1.7倍更少的FLOPs(浮点运算)就能在Databricks LLM Gauntlet上达到45.5%的得分。
与其他LLM比较
DBRX已在语言理解任务上与已建立的开源模型进行了比较。它超越了GPT-3.5,与Gemini 1.0 Pro竞争。该模型在各种基准测试中展示了其能力,包括复合基准测试、编程、数学和MMLU。它在标准基准测试上超越了所有聊天或指令微调模型,得分最高的复合基准测试包括Hugging Face Open LLM Leaderboard和Databricks Model Gauntlet。
此外,DBRX Instruct在长上下文任务和RAG上表现出色,超越了GPT-3.5 Turbo在所有上下文长度和序列的所有部分。与其它模型相比,DBRX Instruct在编程和数学上表现出了其优势,在HumanEval和GSM8k等基准测试上的得分高于其他开源模型。它还显示出与Gemini 1.0 Pro和Mistral Medium的竞争性能,在多个基准测试上超越了Gemini 1.0 Pro。
DBRX的创新
由Databricks开发的DBRX引入了几项关键创新,使其与现有的开源和专有模型区别开来。该模型采用了细粒度的专家混合(MoE)架构,总共有132B个参数,其中36B个参数在任何输入上都是活跃的。
这种架构使DBRX能够提供强大且高效的训练过程,超越了GPT-3.5 Turbo,并在SQL等应用中挑战GPT-4 Turbo。此外,DBRX使用了16个专家,并选择4个专家,提供了65倍更多的可能专家组合,从而提高了模型质量。
该模型还整合了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA),为其卓越的性能做出了贡献。