在人工智能领域,最近的一项重大进展是MiniGPT-4的诞生。这是一个开源模型,它能够执行复杂的视觉语言任务,类似于其更大型的对应模型GPT-4。尽管OpenAI已经确认了GPT-4的多模态能力,但他们尚未发布模型的图像处理能力。MiniGPT-4填补了这一空白,它能够同时处理图像和语言,使用更复杂的大型语言模型(LLM)。
为了构建MiniGPT-4,研究人员使用了Vicuna作为语言解码器和BLIP-2视觉语言模型作为视觉解码器。Vicuna和BLIP-2都是开源技术,进一步支持了MiniGPT-4的开放性质。Vicuna是基于Meta AI的大型语言模型(LLaMA)构建的。这是一个最先进的基础语言模型,旨在帮助研究人员在这一AI子领域推进他们的工作。