NeurIPS 2023会议论文与AI趋势分析

NeurIPS会议是机器学习人工智能领域的重要会议之一。2023年的会议在12月10日至16日举行,展示了该领域最新的研究成果。今年的会议收录了3,584篇论文,这些论文在多个领域推动了机器学习的发展。NeurIPS宣布了2023年的获奖论文,以突出他们认为的顶级研究论文。

随着开创性论文的爆炸性增长,团队使用了一个强大的NeurIPS 2023论文可视化工具来寻找会议中计算机视觉和多模态领域的最新进展。从那里,阅读了这些论文,以找到最具影响力的论文与分享。

在这篇博客文章中,从NeurIPS 2023中精选了11篇重要论文,并分享了可能为2024年及以后设定舞台的一般趋势。让开始吧!

NeurIPS 2023的11个视觉和多模态亮点

SEEM是一个可提示的交互式模型,用于在图像中一次性分割所有内容。这种新颖的解码机制支持各种类型的分割任务的不同提示。目标是创建一个通用的分割接口,其行为类似于大型语言模型(LLMs)。

大规模的网络数据集在大型视觉-语言模型如CLIP和Flamingo的成功中扮演了关键角色。这项研究表明,生成的描述可以增加具有不明确文本的网络抓取数据点的实用性。通过探索原始和生成描述的不同混合策略,他们通过减少噪声数据而不牺牲数据多样性,超越了最佳过滤方法。

最近的工作已经为视觉推理组合了基础模型——使用大型语言模型(LLMs)生成可以由预训练的视觉-语言模型执行的程序。然而,像“左”这样的抽象概念也可以在3D、时间序列和动作数据中得到理解,例如向左移动。这篇论文提出了逻辑增强基础模型(LEFT),这是一个统一的框架,学习跨领域的概念进行理解和推理。

视觉-语言模型(VLMs)在图像级视觉感知中展示了令人印象深刻的零样本转移能力。然而,这些模型在需要精确定位和识别的实例级任务中表现有限。这篇论文介绍了一个新的零样本框架,利用从通用分割模型获得的像素级注释进行细粒度视觉提示。通过这项研究,他们揭示了一种在目标掩码外部应用模糊的技术,称为细粒度视觉提示(FGVP)。这种技术在RefCOCO、RefCOCO+和RefCOCOg基准测试中对指代表达的零样本理解表现出色。

这是一个大型多模态葡萄酒数据集,用于研究视觉感知、语言和风味之间的关系。这篇论文提出了一种低维概念嵌入算法,结合了人类经验和自动机器相似性核。展示了这个共享概念嵌入空间在粗略风味分类(酒精百分比、国家、葡萄、价格、评分)方面优于单独的嵌入空间,并与人类对风味的复杂感知相一致。

这个团队提出了一个基于LLM的框架,用于视觉中心任务,称为VisionLLM。这个框架通过将图像视为外语,并将视觉中心任务与可以使用语言指令灵活定义和管理的语言任务对齐,为视觉和语言任务提供了统一的视角。该模型在COCO上实现了超过60%的mAP,与特定检测模型相当。

多模态查询对象检测,MQ-Det,是一种高效的架构和预训练策略,旨在利用文本描述进行开放集泛化,并使用具有丰富描述粒度的视觉示例作为类别查询,即用于具有开放词汇类别和各种粒度的真实世界检测。MQ-Det将视觉查询整合到现有的仅语言查询检测器中。MQ-Det通过多模态查询显著提高了最先进的开放集检测器GLIP在LVIS基准测试中的性能,提高了7.8%的AP,而无需任何下游微调,平均在13个少样本下游任务中提高了6.3%的AP。

LoRA是一种新颖的逻辑增强视觉问题回答(VQA)数据集,需要基于食品和厨房知识库的正式和复杂的描述逻辑推理。基于SROIQ描述逻辑创建了200,000个多样化的描述逻辑推理问题,以及现实的厨房场景和真实答案。然后对LoRA进行了最先进的大型视觉和语言模型的零样本性能测试。

无词汇图像分类(VIC)旨在将输入图像分配给一个类别,该类别位于一个不受限制的语言诱导的语义空间中,而不需要已知词汇的先决条件。VIC是一项具有挑战性的任务,因为语义空间非常大,包含数百万概念,具有细粒度的类别。

从外部数据库(CaSED)进行类别搜索是一种利用预训练的视觉-语言模型和外部视觉语言数据库以无需训练的方式解决VIC的方法。在基准数据集上的实验验证了CaSED在效率上优于其他复杂的视觉语言框架,同时参数更少,为未来在这个方向上的研究铺平了道路。

零样本人类-物体交互(HOI)检测旨在识别已见过和未见过的HOI类别。CLIP4HOI是在视觉-语言模型CLIP上开发的,避免了模型对已见过的人类-物体对的过拟合。人类和物体被独立识别,所有可行的人类-物体对都由人类-物体交互器处理,以生成成对提案。

在流行的基准测试上的实验表明,CLIP4HOI在罕见和未见过的类别上超越了以前的方法,并在各种零样本设置下创造了一系列最先进的记录。

上下文学习是使用不同的提示配置模型行为的能力。这篇论文提供了一种上下文学习场景理解任务的机制:从注释特征的提示中检索最近的邻居。

得到的模型,Hummingbird,可以在不修改的情况下执行各种场景理解任务,同时接近为每个任务微调的专家的性能。Hummingbird可以比微调模型更有效地配置以执行新任务,为交互式助手场景理解提供了可能性。

NeurIPS是机器学习人工智能领域的顶级会议之一。在NeurIPS 2023语料库中收录了超过3,000篇论文,有大量的进步和突破将塑造2024年及以后人工智能的未来。

今年出现了一些令人兴奋的趋势,认为这些趋势将继续增长,并在2024年及以后启用新的计算机视觉用例:

  • 多模态模型性能:GPT-4 with Vision、Gemini和许多开源多模态模型正在将模型性能推向一个可以构建实际企业应用的领域。随着更多团队专注于提高性能,新的性能基准和新数据集的创建,看来2024年可能是拥有像今天广泛采用的语言模型一样有用的多模态模型的一年。
  • 多模态提示:LLMs在2023年起飞,这要归功于使用文本与它们交互的相对简单的方式,看来多模态模型是下一个。视觉数据是复杂的,找到与数据互动以获得所需结果的方式是一个正在探索的新领域。随着更多的交互被开发,更多的现实世界用例将被解锁。可以使用开源库Maestro来测试提示方法。
  • 视觉逻辑和推理:2023年在图像内的对象分割和理解方面取得了许多突破。随着这些问题相对解决,下一步是理解对象之间的关系以及它们的交互如何传达信息。就像LLMs可以通过理解上下文来推理和改进输出一样,当多模态模型更好地理解给定场景的上下文时,它们将变得更加有用。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485