在探讨如何实现一个可持续、经济且一致的通勤方式时,不得不面对一个令人悲伤的现实:事故频繁发生。在日本,人均乘坐公共交通工具的频率非常高,自2010年以来,已有超过7000人因主要是可以预防的火车事故而死亡,平均每日死亡人数超过两人。
项目将探索如何利用计算机视觉的力量来预防和减轻铁路事故。这个项目是与日本小田急电铁合作完成的,作为一个研究项目。识别出问题案例,发现大多数火车事故都是由于人或车辆与迎面而来的火车相撞造成的。尽管存在一些解决方案,比如将轨道提升至平交道上方,以及安装站台门,但这些解决方案的成本非常高昂。
目标是减轻、预防和避免这些事故多发区域的事故。为此,确定了三种检测潜在或迫在眉睫的危险并启动缓解策略的方法:在车站内跌落轨道的人、在平交道中间被困的人或车辆、以及危险地靠近轨道边缘的人。为了检测这些情况,将开发一个计算机视觉模型,能够在火车视频源中识别以下对象:人、汽车、铁轨、平交道和站台。
为了支持对潜在事件的快速检测和响应,可以将这些解决方案部署到火车上的设备上,使它们能够迅速反应,而不需要依赖互联网连接。使用GoPro相机收集了在东京附近的小田急线上,从藤泽站到新宿站之间35英里(55公里)的有限快车服务的前端数据,并对其进行了标记,以用于事故预防模型。
首先构建了一个用于检测铁路基础设施(站台、轨道、平交道)的模型。在收集数据后,最初希望训练一个初步模型,以便使用模型辅助标记来加快标记过程。首先导入了两小时长的视频,并选择了一个低速率来采样帧。然后,开始使用智能多边形标记数据集,以加快过程。
在标记了大约三十张图像后,训练了一个初始模型,以帮助标记下一轮,并查看模型需要在哪些方面进行改进。初始模型训练取得了令人印象深刻的结果,平均精度均值(mAP)为83.7%。从测试分割结果来看,它的表现还算不错,但也揭示了改进的空间。
从结果中可以看到,模型主要在识别平交道和站台方面存在困难。为了帮助模型更好地学习这些区域,不是从整个行程中采样五十张图像,而是从一站到另一站的跨度中采样五十张图像,每分钟的图像采样率更高。这样,模型就有更多包含站台和平交道的训练数据可以学习。
多次重复这个过程,经过几次迭代后,得到了89.5%的mAP,大约提高了7%,标记了200张图像的数据集。当查看测试分割的样本结果时,发现模型能够更平滑、准确和一致地检测到站台、轨道边缘和平交道。
现在可以继续检测人和车辆,以便在危险区域正确识别这些对象。使用相同的视频数据,导入了一系列在车站停留或通过的短视频片段。这样做是为了特别获得包含人的训练数据,其中大多数人会在火车站。
由于在Roboflow Universe上已经有一个用于人检测的数据集,使用那个模型来帮助快速标记图像。不到一个小时,就得到了一个表现非常好的模型。现在可以一致地看到人在哪里,他们应该在哪里(站台),可能有问题的地方(站台边缘),以及他们不应该在哪里以及火车需要紧急停车的地方(轨道)。
通过结合两个模型,可以看到需要创建安全系统的所有元素。轨道/站台/平交道实例分割和人/车检测都以30 FPS的速度运行。尽管在视频上运行推理确实揭示了模型的一些额外改进空间,但它确实能够很好地检测到大多数关键区域,这应该允许跟踪人(绿色标记)开始离开站台(黄色标记)或进入轨道(红色标记)的位置,触发相应的警报。
对于目的,将把每个人边界框的中心底部(通常与其脚部非常吻合)作为他们站立的位置。可以将这些点与实例分割模型的结果进行匹配,以确定他们是否安全地站在站台上,或者他们是否处于需要采取行动的位置。
通过使用生成性图像模型,可以编辑现有的真实图像,创建一个模拟图像,展示一个不安全的情况可能是什么样子。在这种情况下,看到大多数人安全地站在标记为站台的区域内(绿色点),但有一个人站在标记为轨道的区域内(红色点)。
这就是由计算机视觉驱动的火车快速反应的地方,可以触发尽可能多的措施以确保安全的结果,如触发紧急刹车和喇叭,以及其他措施,包括提醒司机和车站工作人员,提醒第一反应者等等。