在人工智能的早期阶段,智能实体主要局限于基于文本的交流,并且对世界的了解有限。然而,多模态AI的引入为AI领域带来了激动人心的新可能性,使得AI能够像以前从未有过的那样“看”和“听”。最近,OpenAI宣布其最新的GPT-4聊天机器人为多模态AI。让探索多模态AI的当前发展以及它们是如何改变游戏规则的。
传统上,对AI的理解是由聊天机器人塑造的——这些计算机程序模拟与人类用户的对话。尽管聊天机器人有其用途,但它们限制了对AI能做什么的看法,使认为AI只能通过文本进行交流。然而,多模态AI的出现正在改变这种看法。多模态AI可以处理不同类型的输入,包括图像和声音,使其比传统的聊天机器人更加多功能和强大。
OpenAI最近宣布其最先进的AI——GPT-4为多模态AI。这意味着它能够处理和理解图像、声音和其他形式的数据,使其比GPT的早期版本更有能力。这项技术的第一个应用之一是创建鞋类设计。用户提示AI充当时尚设计师,为潮流鞋类开发创意。然后AI提示Bing图像创建器制作设计的图像,并对其进行批评和完善,直到它提出了一个它“自豪”的计划。从提示到最终设计的整个过程完全由AI创建。