随着自动化机器学习(AutoML)的日益流行,能够实现机器学习流程的自动化,这不仅加快了解决方案和模型的开发速度,简化了流程,而且往往能够超越手工设计的模型性能。市场上存在多种付费和开源的AutoML平台,如H2O、Data Robot、Google AutoML、TPOT、Auto-Sklearn等,它们各有优劣,本文不讨论哪个平台最好,而是聚焦于H2O AutoML的一个最新特性——“模型解释性”。
AutoML的引入离不开机器学习项目的生命周期,包括数据清洗、特征选择/工程、模型选择、参数优化,以及最终的模型验证。尽管技术不断进步,传统的数据科学项目仍然包含许多手动流程,重复且耗时。
使用Kaggle上著名的Teleco Churn数据集来解释解释性界面。数据集包含数值和分类变量的混合,关注的变量是‘Churn’,它标识了上个月离开的客户。使用数据集的原始格式,因为重点在于解释模型,而不是模型性能。
该图显示了模型中最重要变量的相对重要性。H2O在0到1之间对每个特征的重要性进行缩放显示。变量重要性是通过每个变量的相对影响来计算的,主要针对基于树的模型,如随机森林:在构建树时是否选择了该变量进行分割,以及作为结果,平方误差(整体树)的改善(减少)程度。
变量重要性热图显示了多个模型中的重要变量。默认情况下,模型和变量按它们的相似性排序。颜色越深(红色),该变量对相应模型的重要性越高。
该图显示了模型预测之间的相关性。对于分类任务,使用相同预测的频率。默认情况下,模型按它们的相似性(通过层次聚类测量)排序。可解释模型,如GAM、GLM和RuleFit,使用红色文本突出显示。
SHAP
值,即SHapley Additive exPlanations的缩写,解释了对于给定变量的特定值与如果该变量取某个基线值相比,对预测的影响。y轴表示变量名称,通常按重要性从上到下降序排列。
虽然变量重要性显示了哪些变量对预测影响最大,但部分依赖图显示了变量如何影响预测。对于熟悉线性或回归模型的人来说,PD图可以类似于这些回归模型中的系数进行解释。变量的效果以平均响应的变化来衡量。
个体条件期望(ICE)图提供了变量对响应的边际影响的图形表示。ICE图与部分依赖图(PDP)相似;PDP显示变量的平均效果,而ICE图显示单个实例的影响。这个函数将为每个十分位数绘制影响。
在本文中,探索了H2O模型解释性界面的不同特性,这个界面看起来很有前景,但仍然处于起步阶段,因为定制视觉选项的选项很少。然而,值得赞赏的是,AutoML平台正在推出这样的模型解释性功能,这将帮助它们逐渐摆脱‘黑箱’标签。希望它们会继续开发平台,从这个角度容纳更多特性。
需要注意的是,这些数据人员有责任正确解释这些结果,并适当地用于预期的数据科学用例。