自监督学习在深度学习中的应用

自监督学习在深度学习领域具有巨大的潜力。与需要大量标记数据的监督学习不同，自监督学习仅需要少量标记数据，甚至不需要标记数据就能实现精确的解决方案。这种学习方法因其挑战性和难度而备受关注。特别是在计算机视觉领域，这一领域通常需要比其他领域更多的标记数据来获得适当的输出。谷歌AI团队最近开发了一种无需标记数据即可追踪视频中目标的模型。

该团队设计了一个卷积神经网络，能够为灰度视频添加颜色。在进行这一过程的同时，网络自学视觉追踪视频中的目标。团队在博客文章中承认，该模型并非以追踪为目标进行训练，但它能够在没有监督的情况下学习，并能够追踪多个目标，且无需任何标记的训练数据。

研究人员使用了公开的Kinetics数据集中的视频来训练该模型。需要注意的是，所有这些视频原本都是彩色的，因此它们首先被转换为灰度，除了每个视频中的第一帧。然后，卷积网络被训练以预测所有剩余帧的原始颜色。下面的图片集合很好地说明了这种技术：

可能会好奇，为什么他们首先要将视频去色。这是因为视频中可能存在多个颜色相同的对象，通过将其转换为灰度然后再添加颜色，团队能够教会机器追踪特定的对象。

在深度学习中设计和使用模型的一个重要部分是模型的可解释性，鉴于与模型相关的复杂性，这并不容易。根据他们的博客文章，他们使用了“一种标准技巧，通过主成分分析（PCA）将模型学习的嵌入投影到三维空间，并将其作为RGB电影进行绘制”。

模型的另一个发现是，它甚至能够追踪人体的姿态。下图显示了不同人体的姿态被追踪的情况（这在JHMDB数据集上进行了测试）。

计算机视觉领域的重要开源数据集更新

谷歌宣布更新其流行的YouTube-8M视频数据集，包含数百万YouTube视频ID，提供高质量机器生成的注释，适用于计算机视觉领域学习或专业人士。

数据科学与机器学习领域的顶尖播客系列

探索数据科学和机器学习领域的最新动态，与行业领袖和实践者一起深入了解。

自监督学习在深度学习中的应用

计算机视觉领域的重要开源数据集更新

数据科学与机器学习领域的顶尖播客系列

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

自监督学习在深度学习中的应用

计算机视觉领域的重要开源数据集更新

数据科学与机器学习领域的顶尖播客系列

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379