自动化机器学习（AutoML）模型解释性

随着自动化机器学习（AutoML）的日益流行，能够实现机器学习流程的自动化，这不仅加快了解决方案和模型的开发速度，简化了流程，而且往往能够超越手工设计的模型性能。市场上存在多种付费和开源的AutoML平台，如H2O、Data Robot、Google AutoML、TPOT、Auto-Sklearn等，它们各有优劣，本文不讨论哪个平台最好，而是聚焦于H2O AutoML的一个最新特性——“模型解释性”。

AutoML的引入离不开机器学习项目的生命周期，包括数据清洗、特征选择/工程、模型选择、参数优化，以及最终的模型验证。尽管技术不断进步，传统的数据科学项目仍然包含许多手动流程，重复且耗时。

H2O AutoML解释性界面

使用Kaggle上著名的Teleco Churn数据集来解释解释性界面。数据集包含数值和分类变量的混合，关注的变量是‘Churn’，它标识了上个月离开的客户。使用数据集的原始格式，因为重点在于解释模型，而不是模型性能。

该图显示了模型中最重要变量的相对重要性。H2O在0到1之间对每个特征的重要性进行缩放显示。变量重要性是通过每个变量的相对影响来计算的，主要针对基于树的模型，如随机森林：在构建树时是否选择了该变量进行分割，以及作为结果，平方误差（整体树）的改善（减少）程度。

变量重要性热图显示了多个模型中的重要变量。默认情况下，模型和变量按它们的相似性排序。颜色越深（红色），该变量对相应模型的重要性越高。

该图显示了模型预测之间的相关性。对于分类任务，使用相同预测的频率。默认情况下，模型按它们的相似性（通过层次聚类测量）排序。可解释模型，如GAM、GLM和RuleFit，使用红色文本突出显示。

SHAP值，即SHapley Additive exPlanations的缩写，解释了对于给定变量的特定值与如果该变量取某个基线值相比，对预测的影响。y轴表示变量名称，通常按重要性从上到下降序排列。

虽然变量重要性显示了哪些变量对预测影响最大，但部分依赖图显示了变量如何影响预测。对于熟悉线性或回归模型的人来说，PD图可以类似于这些回归模型中的系数进行解释。变量的效果以平均响应的变化来衡量。

个体条件期望（ICE）图提供了变量对响应的边际影响的图形表示。ICE图与部分依赖图（PDP）相似；PDP显示变量的平均效果，而ICE图显示单个实例的影响。这个函数将为每个十分位数绘制影响。

在本文中，探索了H2O模型解释性界面的不同特性，这个界面看起来很有前景，但仍然处于起步阶段，因为定制视觉选项的选项很少。然而，值得赞赏的是，AutoML平台正在推出这样的模型解释性功能，这将帮助它们逐渐摆脱‘黑箱’标签。希望它们会继续开发平台，从这个角度容纳更多特性。

需要注意的是，这些数据人员有责任正确解释这些结果，并适当地用于预期的数据科学用例。

基于手势的视频剪辑深度学习程序

本文介绍了如何利用深度学习技术，通过手势来自动剪辑视频，使得视频编辑工作变得更加简便。

时间序列预测与机器学习特征

本文探讨了如何利用多个股市指标进行时间序列预测，并使用机器学习特征进行预测。

自动化机器学习（AutoML）模型解释性

H2O AutoML解释性界面

基于手势的视频剪辑深度学习程序

时间序列预测与机器学习特征

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

自动化机器学习（AutoML）模型解释性

H2O AutoML解释性界面

基于手势的视频剪辑深度学习程序

时间序列预测与机器学习特征

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485