1位大型语言模型(LLMs)的新时代

近年来,人工智能领域中的大型语言模型(LLMs)在规模和功能上都取得了显著的增长。这些模型在自然语言处理(NLP)任务中展现出了卓越的性能。然而,随着模型规模的增加,部署上遇到了挑战,并且由于高能耗引发了对环境影响和经济成本的担忧。为了应对这些挑战,最新的研究为1位LLMs的新纪元铺平了道路。

BitNet b1.58模型

BitNet b1.58是一种重要的1位LLM变体,它引入了新的计算范式,并为设计专门针对1位LLMs优化的硬件打开了大门。该模型基于BitNet架构,这是一种将nn.Linear替换为BitLinear的Transformer。这种架构从头开始训练,使用1.58位权重和8位激活值。

BitNet b1.58保留了其前身——原始1位BitNet的优势,包括其创新的计算范式,该范式最小化了矩阵乘法中的乘法操作,从而实现了高度优化的性能。此外,它与原始模型保持了相同的能效,同时在内存消耗、吞吐量和延迟方面与FP16 LLM基线相比有显著提升。

BitNet b1.58还引入了两个显著的改进。首先,通过在模型权重中包含0来显式支持特征过滤,这一特性显著提升了1位LLMs的性能。其次,实验结果表明,即使在3B大小下,BitNet b1.58也能在相同的配置下与全精度(FP16)基线在困惑度和最终任务性能方面相媲美。这表明BitNet b1.58有潜力重新定义扩展法则,并在现有的LLM模型上提供帕累托改进。

突破长度限制

在LLMs的时代,处理长序列的能力成为了一个关键需求。BitNet b1.58在支持长序列方面迈出了重要一步。它将激活值从16位减少到8位,有效地在相同资源下将上下文长度加倍。这一进步至关重要,因为它解决了长序列推理中KV缓存引入的内存消耗挑战。

此外,1.58位LLMs可以进一步无损压缩到4位甚至更低,为未来的工作提供了一条途径。通过支持长序列的原生支持,BitNet b1.58为LLMs面临的主要挑战之一提供了解决方案。它为NLP任务中扩展序列的更有效、更有效的处理铺平了道路。

边缘和移动设备上的LLMs

1.58位LLMs的部署可以显著提高边缘和移动设备上语言模型的性能。这些设备通常受到有限的内存和计算能力的制约,这限制了LLMs的性能和规模。然而,1.58位LLMs的内存和能耗降低使其适合在这些设备上部署。它解锁了一系列以前不可行的应用程序。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485