在自然语言处理(NLP)领域,大型语言模型(LLMs)以其海量参数和广泛的数据训练,展现出前所未有的能力。然而,从头开始训练这些模型的成本极高,促使研究人员探索替代策略。其中,知识融合作为一种增强LLMs能力的先驱策略,在Wan, Huang, Cai, Quan等人的研究论文《大型语言模型的知识融合》中得到了深入探讨。
为了解决新开发的LLMs功能冗余的问题,这种创新方法提供了一个引人注目的解决方案。该论文深入探讨了合并不同LLMs知识的复杂过程,展示了一条有希望的途径来完善和增强这些语言模型的性能。
核心思想是结合现有LLMs的优势和能力,超越单一模型的限制。通过合并现有的预训练LLMs,可以创建一个更强大的模型,超越每个源模型的个体优势。
论文介绍了两个关键的实施细节,以确保有效的知识融合:令牌对齐和融合策略。
令牌对齐通过最小编辑距离(MinED)策略实现,提高了不同LLMs令牌对齐的成功率。
融合策略,即MinCE和AvgCE,评估不同LLMs的质量,并根据交叉熵分数为它们的分布矩阵分配不同程度的重要性。
研究在LLMs融合的挑战性场景中进行实验,其中源模型之间的共同点很少。选择了三个代表性的开源模型——Llama-2、OpenLLaMA和MPT作为融合的源LLMs,另一个Llama-2作为目标LLM。实验涵盖了评估推理、常识和代码生成能力的基准测试。
FUSELLM在各种基准测试中的综合评估提供了对其有效性的宝贵见解。表1展示了FUSELLM与基线方法在Big-Bench Hard(BBH)上的总体结果比较。值得注意的是,FUSELLM在所有27个任务中的平均相对性能提升为5.16%,超过了原始Llama-2。
在常识(CS)基准测试中,表2显示FUSELLM在所有任务中一致优于基线,在ARC-challenge和OpenBookQA等具有挑战性的任务中表现出显著的改进,强调了FUSELLM在解决复杂问题方面的有效性。
在代码生成方面,表3展示了FUSELLM在MultiPL-E(ME)基准测试中的零样本性能。在10个任务中的9个任务中超过了Llama-2,特别是在R等特定编程语言中,FUSELLM在pass@1分数上表现出显著的提升。
FUSELLM成功的一个关键方面在于其利用来自多个LLMs的融合概率分布的能力。图2比较了Llama-2 CLM和FUSELLM在不同规模训练数据上的BBH上的少量Chain-of-Thought(CoT)性能。FUSELLM显著提高了2.5%的精确匹配(EM)准确率,实现了Llama-2 CLM在0.52亿个令牌内的最佳性能。
深入研究FUSELLM的实施细节揭示了其成功的关键时刻。源LLMs的数量、令牌对齐标准和融合函数的选择在塑造FUSELLM性能中起着关键作用。
源LLMs的数量:表4展示了FUSELLM在不同数量模型下的性能提升。结果表明,随着模型数量从1增加到3,BBH中的性能有了明显的提升。
令牌对齐标准:适当的令牌对齐在LLMs融合中至关重要。提出的MinED方法一致优于EM方法,展示了MinED在对齐多个模型的令牌中的有效性。
融合函数:融合函数的选择至关重要,MinCE在所有基准测试中一致优于AvgCE。这强调了融合函数在保留个体LLMs的独特优势中的重要性。