随着人工智能(AI)和机器学习(ML)技术的飞速发展,它们已成为各行各业提升业务决策和需求的重要工具。企业正通过与领域专家(SMEs)和AI/ML专家合作,准备数据以构建AIML平台解决方案。这些解决方案不仅包括预测,还涉及回归、聚类或分类建模等多种算法。然而,随着技术的发展,用户和利益相关者对解决方案的清晰度和合理性提出了更高的要求,这导致了所谓的“黑箱”问题的出现。
为了解决这一问题,可解释人工智能(XAI)应运而生。XAI是一种集合了明确流程和方法的技术,它允许用户理解和信任基于问题陈述、预期影响和潜在偏见所选择的机器学习算法产生的输出。本文将为提供关于XAI的深入视角,包括关键解释方法及其方法论,这对于利益相关者和消费者理解算法的透明度和可解释性至关重要。
XAI的重要性在于,它能够消除业务利益相关者对现有ML解决方案中黑箱算法的不透明性和可解释性的担忧。XAI的引入旨在解释和翻译用于利益相关者关键业务决策过程的黑箱算法,从而增加它们的采用和一致性。XAI是验证AI和ML解决方案透明度、可问责性、道德性和可靠性的最佳实践,它涉及算法要求、透明度、风险演变和缓解。
XAI技术可以应用于模型构建的两个阶段:建模前和建模后。具体来说,可以分为数据中心和模型特定两大类。数据中心的方法用于理解数据的性质,而模型特定的方法则与特定的机器学习模型算法相关。例如,决策树模型仅与决策树算法相关,属于模型特定解释方法。
模型解释方法包括知识提取、探索性数据分析(EDA)、结果可视化、比较分析、基于影响的方法以及敏感性分析和特征选择重要性。知识提取方法是一种EDA过程,用于从数据集中提取关键见解和统计信息。这是一种后分析方法,属于模型不可知解释性。
# 例如,使用Python进行EDA的代码片段
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据集
data = pd.read_csv('data.csv')
# 描述性统计
print(data.describe())
# 绘制箱线图
plt.boxplot(data['feature'])
plt.show()
基于影响的方法关注于特征在影响模型结果和决策过程中的作用;大多数基本模型都支持这种方法,通过提供决策中的特征重要性。结果可视化方法则是通过特定的绘图方法比较模型结果。
XAI背后的主要理论包括基准、承诺、可靠性、感知、经验和控制异常。XAI应该提供全面的解释和可靠性解释,导致ML模型的承诺。这些因素在详细的根本原因分析(RAC)中起着关键作用。
在处理模型预测的RAC时,感知和经验这两个因素总是产生很大差异。应该有一种出色的人类友好型解释方式,这总是以简洁和抽象的呈现方式预期。过多的细节会导致复杂性,影响最终用户的体验。
在ML解决方案中,数据异常是一个常见的挑战。因此,必须仔细观察引入算法的数据的性质,并在此之前,通过EDA过程彻底理解数据,即使在结果之后;模型解释应包括异常解释能力,以便最终用户无论在数据集中的连续值或分类值如何,都能更舒适地理解模型结果。
让关注一下模型预测不佳的后果以及在实时场景中克服模型可解释性的需求。模型通常由于以下原因而遭受苦难;知道,这是由于预测不佳。
这两个因素完全依赖于外部因素,这可能会在任何级别上崩溃模型,并使生产中的模型不稳定。模型结果可能过拟合或欠拟合。希望熟悉这两个因素,可以在EDA过程和建模中使用测试和训练数据轻松识别它们。
数据承诺、训练数据的质量以及数据不足是导致ML预测不佳的主要原因。因此,每个数据工程师在将数据引入数据平台时都负有责任,并确保源系统对D&A团队和ML工程师有此期望。