随着人工智能技术的飞速发展,开源语言模型逐渐成为研究和应用的新热点。这些模型以其开放性和可定制性,为AI领域带来了新的活力。RedPajama项目就是其中的一个代表,它旨在创建一个完全开源的语言模型,以促进研究和个性化定制。
近期,开源模型取得了显著的进步,特别是在大型语言模型领域。除了完全开源的模型如Pythia、OpenChatKit、Open Assistant和Dolly之外,还有半开源模型如LLaMA、Alpaca、Vicuna和Koala。这些模型展示了开源模型与商业产品竞争的能力,并能通过社区参与激发创造力,正如Stable Diffusion所展示的那样。
RedPajama的开发团队致力于创建一个完全可复现的顶级语言模型,这包括三个关键组成部分:全面、高质量的预训练数据;使用这些数据训练的基础模型;以及增强基础模型的指令调整数据和模型,使其更易于使用和安全。
RedPajama选择LLaMA作为起点,这是一套领先的开源基础模型,选择它有两个主要原因:LLaMA拥有超过1.2万亿个token的大型数据集,经过精心筛选以保证质量;以及经过广泛训练、拥有70亿参数的LLaMA模型,其性能远超Chincilla最优点,为模型大小提供了最佳质量。此外,70亿参数的模型可以在各种GPU上运行,包括消费级GPU,这对开源社区尤其有益。