机器学习在自动驾驶汽车中的应用与数据集准确性

机器学习技术,通过示例来执行新任务,正准备改变从农业到保险等行业。然而,机器学习模型的质量只能与它们训练的数据一样好。机器学习将带来社会变革的一个备受瞩目的领域是自动驾驶汽车的出现。但随着巨大的力量而来的是巨大的责任;一个训练不良的自动驾驶汽车,字面上可以导致人类死亡。

这就是为什么当发现一个流行的数据集(拥有5100个星标和1800个分支)被成千上万的学生用来构建开源自动驾驶汽车时,感到惊讶和担忧。对手头的15000张图片进行了手动检查,发现其中4986张(33%)存在问题。这些问题包括数千辆未标记的车辆、数百个未标记的行人和数十个未标记的骑自行车的人。还发现了许多幻影注释、重复的边界框和过大的边界框。

错误的例子(原始数据集中缺少的红色高亮注释)。也许最严重的是,217张(1.4%)图片完全没有标记,但实际上包含了汽车、卡车、路灯和/或行人。一些包含行人的示例图片在原始数据集中没有包含任何注释。

开源数据集很棒,但如果公众要信任社区以确保他们的安全,需要做得更好,确保共享的数据是完整和准确的。如果在项目中使用公共数据集,请务必尽职调查并检查它们的完整性,然后再在野外使用它们。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485