Mistral AI公司最新推出的Mixtral 8x22B模型以其1760亿参数和65000个token的上下文窗口,标志着与前代Mixtral 8x7B模型相比的重大进步,使其在大型语言模型(LLMs)中占据领先地位。作为稀疏混合专家(SMoE)模型,它仅激活了其中的390亿个参数,这使得它在成本效益上异常出色。尽管激活模式稀疏,但该模型在多语言支持、数学能力和编码能力方面表现出色,超越了行业巨头设定的先前基准。
Mistral AI公司最新推出的Mixtral 8x22B模型以其1760亿参数和65000个token的上下文窗口,标志着与前代Mixtral 8x7B模型相比的重大进步,使其在大型语言模型(LLMs)中占据领先地位。作为稀疏混合专家(SMoE)模型,它仅激活了其中的390亿个参数,这使得它在成本效益上异常出色。尽管激活模式稀疏,但该模型在多语言支持、数学能力和编码能力方面表现出色,超越了行业巨头设定的先前基准。