CVPR 2023会议回顾与展望

2023年的计算机视觉顶级会议CVPR汇聚了众多研究人员和实践者,他们分享了过去一年在该领域的突破性进展,并展望了计算机视觉和人工智能的未来发展。本文将剖析CVPR 2023的主题和亮点,这不仅是对会议的回顾,也是对来年计算机视觉领域主要趋势的预测。

视觉变换器的崛起

在人工智能研究领域,变换器架构在推动技术进步方面取得了重大进展。最近,视觉变换器进入了计算机视觉领域。视觉变换器基于变换器架构构建,将像素块视为文本序列,允许使用相同的架构进行视觉任务处理。

在CVPR 2023上,看到了大量与视觉变换器相关的新技术,研究人员正在分析其偏差、修剪、预训练、蒸馏、反向蒸馏以及将其应用于新任务。以下是最喜欢的一些论文:

  • OneFormer:一种用于通用图像分割的变换器
  • Q-DETR:一种高效的低比特量化检测变换器
  • SparseViT:重新审视激活稀疏性以实现高效的高分辨率视觉变换器

计算机视觉对基础模型的渴望

通用预训练模型已经显示出广泛的多任务学习能力,减少了对许多更繁琐的微调方法的需求。在自然语言处理领域,预测文本中下一个标记的语言模型已被证明是一种随着模型大小而扩展效率的基础模型。然而,在计算机视觉研究社区中,尚未出现这样的模型和损失目标,作为CV任务的事实上的基础模型。

在人工智能学术界,经常听到“用更少的资源做更多的事情”的态度。学术研究社区认识到,他们无法与拥有大量计算资源的工业研究实验室竞争,以创建他们的通用模型。

尽管如此,在CVPR上看到了许多研究实验室正在研究基础模型,主要是在语言和图像的交叉点上。在CVPR上广泛讨论的通用预训练计算机视觉模型包括:

  • Grounding DINO:零样本目标检测,多模态
  • SAM:零样本分割,仅限图像
  • Multi-modal GPT-4(不如预期的多)
  • Florence:通用任务,多模态
  • OWL-VIT:零样本目标检测,多模态

CLIP也在CVPR上展示了一长串的研究论文。一些在CVPR上对计算机视觉的基础嵌入模型进行研究的令人兴奋的研究包括:

  • 通过语言引导采样学习视觉表示
  • DisCo-CLIP:一种用于内存高效CLIP训练的分布式对比损失
  • RA-CLIP:检索增强的对比语言-图像预训练
  • MaskCLIP:掩码自蒸馏推进对比语言-图像预训练

明年,不可避免地会在这一领域取得重大进展和关注,可以期待一些令人兴奋的新的基础CV模型的发布。

机器学习技术、策略和任务

虽然会议大厅充满了关于通用模型的讨论,但2023年CVPR研究的核心部分涉及了计算机视觉中更传统的技术和任务。研究在任务如NERFs、姿态估计和跟踪方面取得了进展,引入了新的方法和例程。

机器学习技术也取得了进展,研究人员在机器学习的理论基础上工作,并提供了实证结果以改进训练例程。对以下实用的机器学习研究特别感兴趣:

  • 用于图像分类的软增强
  • FFCV:通过消除数据瓶颈加速训练
  • 预训练数据在迁移学习中的作用

工业与研究:显著的分歧

研究海报会议和公司展位之间的物理分隔反映了领域未来和当今实践之间的智力分歧。虽然研究海报和研讨会主要关注视觉变换器,但工业展位展示了包装YOLO模型的Python代码片段。

非常兴奋地看到,从事数据标注服务、云计算和模型加速的公司取得了显著的工业进展。

在计算机视觉领域工作从未如此令人兴奋。CVPR 2023展示了领域一年中许多重要的时刻。多模态模型承诺了一个新的基础,实际进展正在将计算机视觉带入工业采用的新阶段。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485