计算机视觉中的遮挡技术

计算机视觉领域,模型可能会过度拟合训练数据,导致在新数据上的表现不佳。遮挡技术是一种数据增强方法,它通过在训练期间遮挡图像的一部分,挑战网络学习不依赖于典型特征的能力。例如,在训练一个检测狗的模型时,可能只有显示狗头的训练数据。通过查看类激活图(CAM),可能会发现网络严重依赖狗头来进行预测。但是,当狗头被灌木丛遮挡时,希望网络能够泛化到这种情况,因此遮挡一些训练图像以隐藏狗头,迫使网络从狗的其他部分识别出狗,这可能是有益的。如果狗头缺失,上述模型可能表现不佳。

遮挡技术的前身

用于训练深度学习计算机视觉模型的遮挡技术并不是全新的研究,最早可以追溯到2017年。随机擦除(Random Erase)是一种技术,它在图像中随机擦除一个矩形区域,并用噪声像素替换。通常,在训练流程中,随机擦除是在设定范围内随机位置和随机宽高实现的。随机擦除也可以以概率方式应用。Cutout技术则是从图像中随机切出正方形。在原始的Cutout论文中,这种增强是通过仅隐藏这些像素从CNN的第一层实现的,这意味着下游连接的层仍然可以看到隐藏的像素。Hide and Seek技术将图像划分为网格,并以一定概率随机隐藏网格的部分。这与网格掩码(Grid Mask)类似,但随机网格被移除。网格掩码是在图像上绘制网格,并隐藏网格的所有方块。

最先进的遮挡技术

新的技术已经从旧技术中发展出来,推动了计算机视觉建模中数据增强的最新技术。CutMix技术是其中之一,它随机切出图像的一部分,并用另一张图像的部分替换。这迫使模型不仅要在遮挡周围进行预测,还要学习不要过度依赖通常找到给定对象或类别标签的周围环境。Mosaic技术虽然不是直接的遮挡技术,但它实现了类似的目标。Mosaic将4张图像拼接在一起,在此过程中随机移动和裁剪它们。这迫使模型学习在遮挡对象的侧面周围进行学习,学习在不同的上下文中识别对象,并学习在图像的不同部分识别对象,从而提高韧性。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485