自监督学习在深度学习中的应用

自监督学习深度学习领域具有巨大的潜力。与需要大量标记数据的监督学习不同,自监督学习仅需要少量标记数据,甚至不需要标记数据就能实现精确的解决方案。这种学习方法因其挑战性和难度而备受关注。特别是在计算机视觉领域,这一领域通常需要比其他领域更多的标记数据来获得适当的输出。谷歌AI团队最近开发了一种无需标记数据即可追踪视频中目标的模型。

该团队设计了一个卷积神经网络,能够为灰度视频添加颜色。在进行这一过程的同时,网络自学视觉追踪视频中的目标。团队在博客文章中承认,该模型并非以追踪为目标进行训练,但它能够在没有监督的情况下学习,并能够追踪多个目标,且无需任何标记的训练数据。

研究人员使用了公开的Kinetics数据集中的视频来训练该模型。需要注意的是,所有这些视频原本都是彩色的,因此它们首先被转换为灰度,除了每个视频中的第一帧。然后,卷积网络被训练以预测所有剩余帧的原始颜色。下面的图片集合很好地说明了这种技术:

可能会好奇,为什么他们首先要将视频去色。这是因为视频中可能存在多个颜色相同的对象,通过将其转换为灰度然后再添加颜色,团队能够教会机器追踪特定的对象。

深度学习中设计和使用模型的一个重要部分是模型的可解释性,鉴于与模型相关的复杂性,这并不容易。根据他们的博客文章,他们使用了“一种标准技巧,通过主成分分析(PCA)将模型学习的嵌入投影到三维空间,并将其作为RGB电影进行绘制”。

模型的另一个发现是,它甚至能够追踪人体的姿态。下图显示了不同人体的姿态被追踪的情况(这在JHMDB数据集上进行了测试)。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485