在深度学习模型的训练过程中,图像的尺寸对模型的训练速度和性能有着显著的影响。较小的图像意味着网络需要处理的像素数量减少,从而可以加快卷积运算的速度。然而,并非所有的图像尺寸调整策略都是等效的。如果图像尺寸过小,可能会影响模型对关键特征的学习。因此,如何平衡图像尺寸和模型性能,是一个需要仔细考虑的问题。
首先,来探讨一下图像尺寸的下限。没有一个固定的尺寸标准,但通常情况下,从小尺寸开始训练模型是比较容易的。一种有效的策略是渐进式调整图像尺寸。可以先用较小的图像训练一个初步模型,然后使用这些模型的权重作为更大尺寸图像训练的起点。具体开始的尺寸取决于具体问题,如果模型的任务是检测对象或对图像进行分类,且区分特征的区域占据了图像的大部分,那么减小图像尺寸对性能的影响可能较小。可以尝试从80x80的尺寸开始,然后逐步增加输入尺寸。
如果图像尺寸不一,需要考虑如何处理这些差异。如果只有一小部分图像(比如少于5%)与其他图像相比形状差异显著,并且这些图像并不代表某个特定类别或其他属性,可以考虑将它们从数据集中移除。如果图像尺寸不一但都在相似的长宽比范围内(比如没有一个图像在某个维度上比其他图像大50%以上),应该考虑将所有图像调整到最小的输入尺寸。通常来说,将较大的图像缩小以匹配较小图像的尺寸,比将较小的图像放大要好。如果将小图像放大,可能会拉伸图像像素,这可能会影响模型学习关键特征,如物体边界的能力。目前,有关使用生成技术智能创建新像素而不是拉伸现有像素的研究正在进行中。
如果需要将图像调整为正方形,有两种选择:要么保持原始图像的长宽比并在调整后的图像中添加填充,要么拉伸原始图像以填充所需的输出尺寸。如果不在乎输入的长宽比,拉伸图像可能是一个不错的选择,这样可以利用最多的像素。然而,这也要求生产模型接收到相似拉伸的图像。如果保持一致的长宽比,需要检查原始图像的哪个维度更大,将其缩放到与输出的最大维度相等,并相应地调整第二个维度。例如,如果将1000x800的图像调整为416x416,1000的边变为416,800变为332.8。332.8和416之间的空间就是需要填充的填充像素。通常来说,保持原始图像的长宽比并按比例调整是更安全的选择。
填充像素指的是原始图像内容与输入网络的图像边缘之间的像素。在长宽比调整示例中,在按比例调整的图像和正方形图像的边缘之间生成了新的“死像素”。通常,填充像素用黑色或白色填充。第三种选择是:用图像内容的反射来填充填充像素。通常情况下,结果会有所不同,但这种技术对于某些分类任务特别有前景。可以考虑运行小批量实验,尝试不同类型的填充,包括反射填充。