Google Open Images 数据集与挑战

作为数据科学家，寻找大型数据集进行工作是一项挑战。大多数组织珍视自己的数据，更倾向于不将其发布给社区。但谷歌一直是少数几个持续开源其研究的组织之一，目的是为了加速研究进程，同时也帮助新兴的数据科学家。本周，他们发布了他们流行的 Open Images 数据集的第四版——免费且可供任何人下载和使用。

Open Images 是一个由谷歌在2016年发布的庞大图像数据集。该数据集包含900万张已经被团队标注的图像。根据他们的网站，“第四版训练集包含1.74M张图像上的14.6M个边界框，涵盖了600个目标类别，使其成为目前最大的具有目标位置注释的数据集。”这些注释由专业标注者手动绘制，以确保准确性和一致性。图像中的主题性质多样。在这个数据集中，平均每张图像中有8.4个对象。更令人兴奋的是，数据还用跨越数千类别的图像级标签进行了标注！

Open Images 数据集预先分为训练集、验证集和测试集。训练集包含9,011,219张图像，验证集有41,260张图像，测试集有125,436张图像。所有这些图像都带有适当的标签，以帮助尽快开始构建模型。

随着这个数据集的发布，谷歌还宣布了“Open Images Challenge 2018”。这个挑战计划在欧洲计算机视觉会议上举行，将是一个目标检测挑战。这个最新的比赛提供了比以往任何挑战更广泛的目标类别。它将有两个赛道：

目标类别检测：预测所有500个类别实例的紧密边界框。
视觉关系检测：检测特定关系的成对对象，例如“女人弹吉他”。这是通过增加带有多个对象注释的大量图像来完成的。

提交结果的截止日期是2018年9月1日。这个挑战的评估指标将是给定的500个类别上的平均精度均值（mAP）。这是团队在过去2年中发布的第四次更新。

可以从谷歌的页面下载数据集。

数据可视化与降维技术：Hypertools库介绍

本文介绍了Hypertools库，这是一个基于Python的降维和数据可视化工具，旨在帮助数据科学家更有效地处理和分析高维数据集。

IBM云私有数据平台：数据科学与应用构建的新纪元

IBM云私有数据平台为数据科学领域带来了革命性的变化，通过简化数据管理、数据治理和商业分析，加速用户的AI旅程。

Google Open Images 数据集与挑战

数据可视化与降维技术：Hypertools库介绍

IBM云私有数据平台：数据科学与应用构建的新纪元

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

Google Open Images 数据集与挑战

数据可视化与降维技术：Hypertools库介绍

IBM云私有数据平台：数据科学与应用构建的新纪元

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379