随着技术的不断进步,计算机视觉在农业领域的应用正变得越来越重要。它不仅有助于提高作物产量,还能促进更加环保和高效的生产方式。例如,Blue River(约翰迪尔公司的一部分)开发的“See & Spray”技术,能够实现实时的杂草检测,同时减少90%的除草剂使用,更有效地针对问题杂草。这种技术的实际应用展示了计算机视觉在农业中的潜力,但这只是冰山一角。随着更多开源数据的加入,计算机视觉在农业中的采纳速度有望进一步加快。目前,已经看到了自动驾驶的联合收割机、自动化表型分析以及自主拖拉机等技术,它们正在推动精准农业的革命。
2019年秋季,印度理工学院的研究人员发布了PlantDoc数据集,这是一个包含2,598张图像的数据集,涵盖了13种植物和27个类别(17个疾病类别和10个健康类别),用于图像分类和目标检测。研究人员指出,创建这个数据集花费了超过300个人小时来收集和标注。与CropDeep和DeepWeeds等类似数据集不同,PlantDoc数据集可供公众免费下载,供深度学习研究人员使用。
该论文的之一,Pratik Kayal,在GitHub上分享了目标检测数据集。在Roboflow,致力于推进所有行业的计算机视觉工作,包括农业。将数据集托管在Roboflow公共数据集上,提供任何可能需要的标注格式:VOC XML、COCO JSON、CreateML JSON,甚至是TFRecords。数据集遵循与Pratik Kayal的GitHub发布相同的训练/测试分割,以便于机器学习实验的可重复性。
当在Roboflow上添加数据集并利用自动标注检查时,发现了改进的机会,因此数据集在某些方面与原始版本略有不同。首先,纠正了超过28个标注问题。在某些情况下,边界框略微超出了画面,因此被裁剪以与图像边缘对齐。其他一些则意外地包含了零像素,因此被完全丢弃。其中25个在训练集中,3个在测试集中。当人类被分配超过300小时的标记任务来创建8,851个边界框时,错误是不可避免的!Roboflow可以自动识别并纠正任何数据集中的这些问题。
其次,有五张图像没有包含任何标签。在训练集中,这包括原始标题为Tdisease_1.jpg、ac-0018.pdf-2_2.jpg和Tomato%20physiologic%20leaf%20roll1F.JPG.jpg的图像。在测试集中,这包括原始标题为Summersquashpowderymildew.jpg和stock-photo-cultivar-marrow-leaf-strongly-affected-with-a-powdery-mildew-in-the-summer-garden-707948062.jpg的图像。不是像原始那样的植物生物学家。然而,基于上下文和俄亥俄州立大学的研究,能够推断出原始图像应该如何被标记,并通过手工进行了更正。
正如IIT的研究人员在他们的论文中所指出的,“仅植物疾病每年就给全球经济造成约2200亿美元的损失。”训练模型更早地识别植物疾病,可以显著提高产量潜力。该数据集还作为有用的开放数据集,用于基准测试。研究人员训练了包括YOLOv4、MobileNet和Faster-RCNN在内的目标检测模型,以及包括VGG16、InceptionV3和EfficientNet在内的图像分类模型。