在机器学习领域,超参数调优是选择一组最优超参数以优化学习算法的过程。超参数是在学习过程开始之前设置的模型参数。机器学习算法的关键在于超参数调优。
超参数的类型包括:
学习算法的泛化(测试)误差主要由两个部分组成:
这两个组成部分之间的权衡由模型的复杂性和训练数据的数量决定。最优超参数有助于避免欠拟合(训练和测试误差都很高)和过拟合(训练误差低但测试误差高)。
开发机器学习模型的核心任务之一是评估其性能。在将机器学习模型用于软件应用中,开发过程中包含多个阶段。
模型评估和持续评估可能有不同的指标。例如,模型评估可能包括准确率或AUROC,而持续评估可能包括客户终身价值。此外,数据的分布可能在历史数据和实时数据之间发生变化。一种检测分布漂移的方法是通过持续的模型监控。
模型参数是从数据中学习得到的,而超参数则被调整以获得最佳拟合。寻找最佳超参数可能是一个繁琐的过程,因此使用像网格搜索和随机搜索这样的搜索算法。
评估指标与机器学习任务紧密相关。对于有监督算法(分类和回归)和无监督算法有不同的指标。例如,二分类的分类性能使用准确率、AUROC、对数损失和KS来衡量。
模型选择是指选择适合数据的模型的过程。这是通过使用测试评估指标来完成的。测试数据的结果反馈给超参数调优器,以获得最优化的超参数。