计算机视觉领域的重要开源数据集更新

本周在计算机视觉领域迎来了一系列重要的开源数据集发布！继伯克利大学最近发布了他们的自动驾驶数据集之后，谷歌也宣布了对其广受欢迎的“YouTube-8M”数据集的更新。

YouTube-8M是一个包含数百万YouTube视频ID的视频数据集。它包括从数十亿帧和音频片段中提取的高质量机器生成的注释，这些注释源自众多视觉实体和视听特征。简而言之，这个数据集对于任何学习或已经在计算机视觉领域工作的人来说都是完美的。

该数据集设计得可以适应单个硬盘，使得在单个GPU上不到一天就能训练出基线模型！其理念是创建一个大规模的数据集，用于探索通常需要数周时间训练的复杂视听模型。

新版的主要改进包括注释和机器生成标签的质量提升。这些是通过将视听内容与标题、描述和其他元数据结合起来获得的。更新版本包含了610万个URL，用3862个视觉实体词汇标注。每个视频都标注了一个或多个标签（平均每视频3个标签）。

团队在他们的GitHub页面上提供了这个庞大数据集的入门代码。除了代码之外，还可以找到用于使用标准评估指标比较模型的Python脚本。

开发者建议，可以先下载数据集的一部分开始，然后随着进展下载更多。如果更倾向于一次性下载整个数据集，这也是可能的，但将需要大量的互联网带宽（更不用说机器上的空间了）。视频级训练集大约为18GB。帧级特征将占用大约1.3TB的空间，因此在开始下载之前请确保一切准备就绪！

关键词:

本文介绍了一种基于少量二维图像重建三维物体的AI算法，该算法由谷歌DeepMind团队开发，能够模拟人类从不同角度观察物体的能力。

本文介绍了谷歌AI团队开发的自监督学习模型，该模型能够在无需标记数据的情况下进行视频目标追踪、上色和姿态估计。