近期Netflix热门剧集《女王的棋局》深刻揭示了社会中女性面临的挑战和性别偏见问题。这部剧集不仅娱乐性强,也让反思现代社会中根深蒂固的偏见问题。众所周知,性别、种族、年龄、社会经济地位等偏见一直是人类思想和行为的一部分。随着社会意识的提高,越来越多的人开始站出来反对影响人类决策的歧视和偏见。
但是,对智能系统和应用程序的决策又了解多少呢?这些智能应用程序是基于人类提供的数据构建的。当人类思想和行为中存在偏见时,开发的智能应用程序继承这种偏见也就不足为奇了。
以自然语言处理(NLP)应用为例,如果一个NLP应用填充句子为“父亲是医生,母亲是护士”,这个例子直接关联到社会中存在的性别不平等。
再来看一些例子:为什么一些流行的基于AI的招聘软件会歧视女性申请者?为什么Siri和Alexa最初表现出性别偏见?许多报告显示,许多图像处理应用程序无法识别女性,尤其是深色皮肤的女性。为什么基于AI的决策支持应用程序未能识别属于特定种族的罪犯?
这些机器学习/AI应用程序的输出为什么会有偏见?因为设计的机器学习/AI应用程序是从提供给它们的数据中学习的。提供的数据包含了人类世界中存在的偏见和不平等,无论是有意识还是无意识的。
作为数据科学家/数据分析师/机器学习工程师和AI从业者,知道如果样本数据不能代表整个人口,那么结果就没有统计意义。这意味着无法获得准确的结果。
在这种数据上构建的机器学习模型会在代表性不足的数据上表现更差。例如,在医疗保健这一关键领域,数据偏见可能导致灾难性的结果。
开发用于检测皮肤癌的AI算法,其目标是像经验丰富的皮肤科医生一样完美地检测皮肤癌,但这些算法未能检测到深色皮肤人群的皮肤癌。为什么会这样?因为数据集不平衡。算法训练所用的大多数图像属于浅色皮肤个体。用于训练这些算法的数据来自大多数是白皮肤人的州。因此,当给算法提供属于深色皮肤人群的图像时,算法无法检测到疾病。
在上述两个例子中,错误诊断的后果是什么?在开发过程中哪里出了问题?AI偏见是如何发生的?
AI偏见背后有多种因素,没有单一的根本原因。
采样错误主要是由于不适当的数据收集方法造成的。不包括多样化人口统计类别的数据集将是不平衡/倾斜的,在数据清洗阶段更容易忽视这些因素。
如上所述,偏见可以在监督学习中由人类在标记数据时引入,大多数时候是无意的。这可能是因为人类存在无意识的偏见。由于这些数据教导和训练AI算法如何分析和给出预测,输出将有异常。
在特征工程阶段,可能会发生偏见。例如,在开发用于预测贷款批准的ML应用程序时,如果考虑种族、性别等特征,这些特征将引入偏见。相反,在开发用于医疗保健的AI应用程序时,如果从数据集中移除相同的特征,如种族、性别,将导致上述医疗保健示例中的错误。
AI不仅在流行领域广泛使用,而且在医疗保健、刑事司法等敏感领域也广泛使用。因此,关于数据偏见和输出公平性的辩论一直在数据和AI社区中进行。
有很多研究和学习正在进行,以确定偏见是如何被引入AI系统的,以及如何处理它以减少错误。负责任的AI和道德AI也被广泛采用,以解决偏见问题以及其他AI挑战。
使用AI进行决策支持系统的主要目标之一应该是使决策比人类更少偏见。
应该将这个有偏见的数据问题留给研究人员,继续常规数据清理任务,并尝试作为开发工作的一部分提高算法的准确性吗?
随着人工智能越来越深入生活,用于开发这些应用程序的数据中的偏见可能不仅对人类生活,而且对整个地球都有严重影响。
因此,每个人都有责任在开发的早期阶段努力识别和处理偏见。
每个数据机器学习工程师/AI从业者都必须承担起在开发人工智能应用程序时识别和消除偏见的责任。
以下是可以考虑的一些步骤,以推动这一进程。不应该盲目地使用任何可用的数据构建和开发应用程序。需要与研究人员合作,确保模型开发有多样化的数据。
必须在数据收集阶段小心,获得足够的领域知识,以评估收集的数据是否包括多样化因素,并有可能存在偏见。
在特征工程阶段,应该深入研究特征,并结合更多关于正在工作的领域的问题的研究,以消除可能引入偏见的任何特征。
可解释的AI和可解释的AI也有助于通过确保公平性、包容性、透明度和可靠性来建立对算法的信任。
通过测量不同人口统计类别和敏感群体的准确性水平,仔细测试和评估模型也可能有助于减少算法偏见。