Pixtral-12B是由Mistral公司推出的一款新型AI模型,它基于Nemo 12B模型,增加了一个400M参数的视觉适配器。这个模型不仅能够处理文本数据,还能够处理高分辨率的图像数据,使其在多模态人工智能应用中具有广泛的应用前景。Pixtral-12B模型的主要特点包括12亿参数的模型大小、40层的网络结构、400M参数的视觉适配器以及对1024x1024图像的输入支持。此外,它还采用了2D RoPE(旋转位置嵌入)技术来增强对空间关系的理解。
Pixtral-12B模型的词汇表大小可达到131,072个token,并且引入了特殊的token,如img、img_break和img_end,以更好地处理图像数据。这个模型的设计使其在图像描述、故事生成等多模态任务中表现出色,并且可以通过微调来适应特定的应用需求。
截至2024年9月15日,Pixtral-12B模型尚未在Mistral的Le Chat或La Plateforme上直接使用聊天界面或通过API访问,但可以通过torrent链接下载模型并使用,甚至可以微调权重以满足特定需求。此外,还可以通过Hugging Face平台使用该模型。
使用Pixtral-12B模型需要高性能的GPU支持,建议使用Google Colab或Jupyter Notebook配合RunPod的付费版本。在RunPod实例中,如果使用40GB磁盘空间,建议使用A100 PCIe GPU。通过vllm库,可以方便地使用Pixtral-12B模型,并进行必要的安装和配置。