大型语言模型的知识融合技术

自然语言处理(NLP)领域,大型语言模型(LLMs)以其海量参数和广泛的数据训练,展现出前所未有的能力。然而,从头开始训练这些模型的成本极高,促使研究人员探索替代策略。其中,知识融合作为一种增强LLMs能力的先驱策略,在Wan, Huang, Cai, Quan等人的研究论文《大型语言模型的知识融合》中得到了深入探讨。

知识融合的基本概念

为了解决新开发的LLMs功能冗余的问题,这种创新方法提供了一个引人注目的解决方案。该论文深入探讨了合并不同LLMs知识的复杂过程,展示了一条有希望的途径来完善和增强这些语言模型的性能。

核心思想是结合现有LLMs的优势和能力,超越单一模型的限制。通过合并现有的预训练LLMs,可以创建一个更强大的模型,超越每个源模型的个体优势。

知识融合的实施细节

论文介绍了两个关键的实施细节,以确保有效的知识融合:令牌对齐和融合策略。

令牌对齐通过最小编辑距离(MinED)策略实现,提高了不同LLMs令牌对齐的成功率。

融合策略,即MinCE和AvgCE,评估不同LLMs的质量,并根据交叉熵分数为它们的分布矩阵分配不同程度的重要性。

实验与评估

研究在LLMs融合的挑战性场景中进行实验,其中源模型之间的共同点很少。选择了三个代表性的开源模型——Llama-2、OpenLLaMA和MPT作为融合的源LLMs,另一个Llama-2作为目标LLM。实验涵盖了评估推理、常识和代码生成能力的基准测试。

FUSELLM在各种基准测试中的综合评估提供了对其有效性的宝贵见解。表1展示了FUSELLM与基线方法在Big-Bench Hard(BBH)上的总体结果比较。值得注意的是,FUSELLM在所有27个任务中的平均相对性能提升为5.16%,超过了原始Llama-2。

不同基准测试中的性能

在常识(CS)基准测试中,表2显示FUSELLM在所有任务中一致优于基线,在ARC-challenge和OpenBookQA等具有挑战性的任务中表现出显著的改进,强调了FUSELLM在解决复杂问题方面的有效性。

在代码生成方面,表3展示了FUSELLM在MultiPL-E(ME)基准测试中的零样本性能。在10个任务中的9个任务中超过了Llama-2,特别是在R等特定编程语言中,FUSELLM在pass@1分数上表现出显著的提升。

融合概率分布:加速优化

FUSELLM成功的一个关键方面在于其利用来自多个LLMs的融合概率分布的能力。图2比较了Llama-2 CLM和FUSELLM在不同规模训练数据上的BBH上的少量Chain-of-Thought(CoT)性能。FUSELLM显著提高了2.5%的精确匹配(EM)准确率,实现了Llama-2 CLM在0.52亿个令牌内的最佳性能。

实施过程分析

深入研究FUSELLM的实施细节揭示了其成功的关键时刻。源LLMs的数量、令牌对齐标准和融合函数的选择在塑造FUSELLM性能中起着关键作用。

源LLMs的数量:表4展示了FUSELLM在不同数量模型下的性能提升。结果表明,随着模型数量从1增加到3,BBH中的性能有了明显的提升。

令牌对齐标准:适当的令牌对齐在LLMs融合中至关重要。提出的MinED方法一致优于EM方法,展示了MinED在对齐多个模型的令牌中的有效性。

融合函数:融合函数的选择至关重要,MinCE在所有基准测试中一致优于AvgCE。这强调了融合函数在保留个体LLMs的独特优势中的重要性。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485