作为数据科学家,寻找大型数据集进行工作是一项挑战。大多数组织珍视自己的数据,更倾向于不将其发布给社区。但谷歌一直是少数几个持续开源其研究的组织之一,目的是为了加速研究进程,同时也帮助新兴的数据科学家。本周,他们发布了他们流行的 Open Images 数据集的第四版——免费且可供任何人下载和使用。
Open Images 是一个由谷歌在2016年发布的庞大图像数据集。该数据集包含900万张已经被团队标注的图像。根据他们的网站,“第四版训练集包含1.74M张图像上的14.6M个边界框,涵盖了600个目标类别,使其成为目前最大的具有目标位置注释的数据集。”这些注释由专业标注者手动绘制,以确保准确性和一致性。图像中的主题性质多样。在这个数据集中,平均每张图像中有8.4个对象。更令人兴奋的是,数据还用跨越数千类别的图像级标签进行了标注!
Open Images 数据集预先分为训练集、验证集和测试集。训练集包含9,011,219张图像,验证集有41,260张图像,测试集有125,436张图像。所有这些图像都带有适当的标签,以帮助尽快开始构建模型。
随着这个数据集的发布,谷歌还宣布了“Open Images Challenge 2018”。这个挑战计划在欧洲计算机视觉会议上举行,将是一个目标检测挑战。这个最新的比赛提供了比以往任何挑战更广泛的目标类别。它将有两个赛道:
提交结果的截止日期是2018年9月1日。这个挑战的评估指标将是给定的500个类别上的平均精度均值(mAP)。这是团队在过去2年中发布的第四次更新。
可以从谷歌的页面下载数据集。