在人工智能领域,机器学习算法被广泛应用于理解和生成人类语言,从而简化了人机交互。微软亚洲研究院进一步推动了这一技术的发展,推出了VisualGPT。这一AI模型整合了视觉基础模型(Visual Foundation Models,简称VFM),以增强对视觉信息的理解和编辑能力。
VisualGPT是ChatGPT的扩展版本。ChatGPT利用自然语言处理(NLP)技术生成对用户输入的响应。VisualGPT在此基础上增加了视觉信息的处理,使用户能够在聊天的同时生成图像。
VisualGPT的核心是VFM,这些基础算法在计算机视觉中被用来将标准的视觉技能转移到AI应用中,以处理更复杂的任务。VisualGPT中的Prompt Manager包含22个VFM,包括文本到图像、ControlNet和Edge-To-Image等。这使得VisualGPT能够将图像中的视觉信号转换成语言格式,以便于更好地理解。
VFMs
之所以重要,是因为它们为VisualGPT提供了合成内部聊天历史的能力,其中包括图像文件名等信息,以增强理解。例如,用户输入的图像名称作为操作历史,Prompt Manager引导模型通过“推理格式”来确定正确的VFM操作。本质上,这可以被视为模型在选择正确的VFM操作前的内部思考。