在机器学习领域,模型的训练、验证和测试是构建高效算法的关键步骤。如果没有严谨的数据集分割,模型很容易过拟合到收集的一小部分样本上。例如,特斯拉使用计算机视觉来识别停车标志时,就会发现实际的变体比预期的要多得多。
为了鼓励建立模型构建的最佳实践,Roboflow默认提示用户在上传数据时创建训练集、验证集和测试集。默认设置将用户的数据分割为70/20/10的比例:70%的样本在训练集中,20%在验证集中,10%保留在测试集中。
然而,有时可能需要更精确地控制哪些图像属于训练集、验证集或测试集。实际上,特斯拉的Andrej Karpathy在测试集的策划上花费的时间与训练集策划一样多。在Roboflow中调整分割非常简单。在上传数据时,用户可以选择当前上传的图像应该属于训练集、验证集还是测试集。
一旦将图像添加到数据集的一个分割中,可以选择“添加更多图像”来重复上传过程,只不过可以选择“验证”或“测试”作为下一批上传图像的分割。在右侧,可以选择“添加更多图像”来扩展给定的图像数据集。
作为一个额外的好处,如果图像在本地已经组织在“Train”、“Valid”和“Test”文件夹中,并且将这些文件夹拖放到Roboflow中上传,Roboflow将在上传时自动检测这种文件结构组织,并建议根据现有值分割图像。