最近发布的Mixtral 8x7B模型在大型语言模型(LLMs)领域引起了轰动,因为它引入了一种新颖的架构范式——“混合专家”(MoE)方法。与大多数语言模型的策略不同,Mixtral 8x7B在该领域是一个引人注目的发展。
混合专家方法的工作原理
混合专家方法依赖于两个主要组件:路由器和专家。在决策过程中,路由器决定对于给定输入应该信任哪个或哪些专家,以及如何权衡他们的结果。另一方面,专家是专门处理手头问题不同方面的个体模型。Mixtral 8x7B有八个专家可供选择,但只选择两个专家来处理任何给定的输入。这种选择性地使用专家的做法将MoE与传统的集成技术区分开来,后者结合了所有模型的结果。
在Mixtral 8x7B模型中,“专家”指的是稀疏混合专家(SMoE)架构中的专门前馈块。模型的每一层都包含8个前馈块。在每个标记和层中,路由器网络选择两个前馈块(专家)来处理标记并将它们的输出相加。每个专家都是模型中的一个专门组件或功能,有助于处理标记。专家的选择是动态的,对于每个标记和时间步都会有所不同。这种架构旨在通过仅使用每个标记的子集参数来增加模型的容量,同时控制计算成本和延迟。
MoE方法的工作流程
MoE方法通过一系列步骤展开:首先,路由器在面对新输入时决定应该由哪些专家来处理输入。值得注意的是,Mixtral的方法倾向于根据语法而不是领域来选择专家。然后,选定的专家根据他们对问题不同方面的专门知识进行预测。这允许对输入进行细致而全面的了解。最后,最终的预测结果是通过结合选定专家的输出来实现的。这种组合是加权的,反映了路由器对每个专家在特定输入方面的信赖程度。
Mixtral-8x7B采用了仅解码器模型,其中前馈块从八个不同的参数组中进行选择。在每一层,对于每个标记,路由器网络选择两组来处理标记并将它们的输出相加。这种独特的技术增加了模型的参数数量,同时保持成本和延迟控制。尽管总共有46.7B个参数,Mixtral 8x7B每个标记仅使用12.9B个参数,确保了处理效率。以与12.9B模型相同的速度和成本处理输入和生成输出,在性能和资源利用之间创造了平衡。