传统的文本嵌入模型存在一些限制,包括次优的检索性能、高延迟和缺乏可扩展性。这些限制影响了用户体验和在现实世界企业环境中部署这些模型的实用性。现有模型的一个关键挑战是它们无法在各种任务中持续提供高质量的检索性能,包括分类、聚类、成对分类、重新排名、检索、语义文本相似性和摘要。此外,缺乏高效的采样策略和能力感知的硬负挖掘可能导致模型质量不佳。而且,依赖于其他来源初始化的模型可能无法完全满足企业寻求为其嵌入工作流程提供动力的具体需求。因此,迫切需要开发新的和改进的文本嵌入模型来解决这些挑战。行业需要能够提供更优越的检索性能、更低延迟和更好可扩展性的模型。Snowflake的北极嵌入模型家族正是这些限制的完美解决方案。它们专注于现实世界的检索工作负载,代表了为企业提供实际解决方案的里程碑。它们在所有嵌入变体中超越了以前的最先进模型,进一步证实了这一点。
Snowflake北极嵌入模型专门设计用于增强现实世界的搜索功能,专注于检索工作负载。这些模型已经开发出来,以满足寻求增强其搜索能力的企业的现实需求。通过利用最先进的研究和专有的搜索知识,Snowflake创建了一系列在所有嵌入变体中超越以前最先进模型的模型。这些模型的上下文窗口和大小各不相同,最大的模型拥有3.34亿个参数。这种扩展的上下文窗口为企业提供了一系列最佳匹配其延迟、成本和检索性能要求的选项。Snowflake北极嵌入模型已经根据大规模文本嵌入基准(MTEB)进行了评估。这个测试衡量了检索系统在各种任务中的性能,如分类、聚类、成对分类、重新排名、检索、语义文本相似性和摘要。截至2024年4月,每个Snowflake模型在类似大小的嵌入模型中排名第一。这展示了它们在现实世界检索工作负载中无与伦比的质量和性能。