探索即将到来的新功能,以及它们如何改变计算机视觉领域。
随着多模态大型语言模型(LLMs)如GPT-4的出现,正步入一个新时代。这些模型通过互联网上人类知识的全面训练,获得了对世界的广泛理解,并具备了快速进步的推理和任务完成能力。Roboflow对于帮助利用GPT-4提升计算机视觉能力感到非常兴奋。当Roboflow与GPT-4结合使用时,将变得更加强大。在这篇文章中,将预览未来几周内将推出的一些新功能。
计划支持用户和所有对使用GPT-4进行视觉测试和评估模型在他们任务上的表现的人。
在没有访问GPT-4的多模态API的情况下,很难说哪些任务将由通用模型更好地解决,将花费一些时间推测GPT-4将如何改变计算机视觉,GPT-4可能更擅长哪些计算机视觉任务,以及GPT-4解锁了哪些新任务。在许多情况下,GPT-4可能无法达到将应用程序投入生产所需的精度,但理解权衡是第一步。将GPT-4的开箱即用性能与其他零样本和传统微调模型进行比较将是至关重要的。
将提供软件流程,从GPT-4中提取知识,以创建更好的数据,用于训练自己的自定义模型,这些模型可以在自己的环境和边缘运行。在语言方面,像Alpaca这样的项目已经证明了使用自指导技术等技术,通过GPT模型的输出来监督更小的开源模型LLaMa,以快速高效地提取GPT-4知识的有效性。在计算机视觉中,这些技术看起来会有所不同,但将与社区合作解决它们——无论是零样本标记技术来监督CNN,还是最终的多模态模型蒸馏。
GPT-4的一般知识通过相关领域的相关上下文得到补充。
人们通常通过将相关文本文档语义嵌入到数据库中,并在查询时搜索他们的文档存储以找到相关信息,并将该上下文输入到GPT中来实现这一点。有了多模态理解,将能够将图像作为上下文输入到GPT中。将在Roboflow构建支持基础设施,以帮助部署基于少样本上下文的GPT-4查询,因此用户可以在自定义数据集上运行查询以获取上下文。
虽然GPT-4具有强大的一般智能,但API背后的模型是固定的。
为了随着变化的环境进化模型或解决新的边缘案例,需要主动学习——一个从生产环境中收集边缘案例图像以进行重新训练的过程。将支持从GPT-4应用程序捕获图像并将其添加到训练语料库的过程,以便人工介入进行指导,既用于蒸馏,也用于少样本学习。当OpenAI发布用于训练GPT-4的多模态端点的微调API时,也将支持这些端点的训练(就像已经为其他数十个模型所做的那样)。
Roboflow+GPT-4路线图的另一个令人兴奋的领域是利用GPT-4作为数据集助手。
将构建诸如自动数据集本体、零样本标记、魔法预处理和增强以及自动数据集健康检查和提高模型性能提示等功能。所有这些技术都将旨在使Roboflow应用程序更加强大和直观,利用GPT-4的一般知识。
Roboflow中的第一个由GPT-4驱动的功能今天已经上线!现在可以使用GPT-4为Roboflow Universe项目创建一个README。要尝试,请转到Roboflow中项目的概览页面,然后点击“用GPT-4填充”——在将OpenAI API密钥链接到Roboflow帐户后,将获得一个基于对图像和项目元数据的分析的用例列表。
已经在网站聊天小部件中启动了一个集成,利用kapa.ai——一个由GPT-4驱动的机器人。