2023年的计算机视觉顶级会议CVPR汇聚了众多研究人员和实践者,他们分享了过去一年在该领域的突破性进展,并展望了计算机视觉和人工智能的未来发展。本文将剖析CVPR 2023的主题和亮点,这不仅是对会议的回顾,也是对来年计算机视觉领域主要趋势的预测。
在人工智能研究领域,变换器架构在推动技术进步方面取得了重大进展。最近,视觉变换器进入了计算机视觉领域。视觉变换器基于变换器架构构建,将像素块视为文本序列,允许使用相同的架构进行视觉任务处理。
在CVPR 2023上,看到了大量与视觉变换器相关的新技术,研究人员正在分析其偏差、修剪、预训练、蒸馏、反向蒸馏以及将其应用于新任务。以下是最喜欢的一些论文:
通用预训练模型已经显示出广泛的多任务学习能力,减少了对许多更繁琐的微调方法的需求。在自然语言处理领域,预测文本中下一个标记的语言模型已被证明是一种随着模型大小而扩展效率的基础模型。然而,在计算机视觉研究社区中,尚未出现这样的模型和损失目标,作为CV任务的事实上的基础模型。
在人工智能学术界,经常听到“用更少的资源做更多的事情”的态度。学术研究社区认识到,他们无法与拥有大量计算资源的工业研究实验室竞争,以创建他们的通用模型。
尽管如此,在CVPR上看到了许多研究实验室正在研究基础模型,主要是在语言和图像的交叉点上。在CVPR上广泛讨论的通用预训练计算机视觉模型包括:
CLIP也在CVPR上展示了一长串的研究论文。一些在CVPR上对计算机视觉的基础嵌入模型进行研究的令人兴奋的研究包括:
明年,不可避免地会在这一领域取得重大进展和关注,可以期待一些令人兴奋的新的基础CV模型的发布。
虽然会议大厅充满了关于通用模型的讨论,但2023年CVPR研究的核心部分涉及了计算机视觉中更传统的技术和任务。研究在任务如NERFs、姿态估计和跟踪方面取得了进展,引入了新的方法和例程。
机器学习技术也取得了进展,研究人员在机器学习的理论基础上工作,并提供了实证结果以改进训练例程。对以下实用的机器学习研究特别感兴趣:
研究海报会议和公司展位之间的物理分隔反映了领域未来和当今实践之间的智力分歧。虽然研究海报和研讨会主要关注视觉变换器,但工业展位展示了包装YOLO模型的Python代码片段。
非常兴奋地看到,从事数据标注服务、云计算和模型加速的公司取得了显著的工业进展。
在计算机视觉领域工作从未如此令人兴奋。CVPR 2023展示了领域一年中许多重要的时刻。多模态模型承诺了一个新的基础,实际进展正在将计算机视觉带入工业采用的新阶段。