构建无偏见的人工智能世界

  • 什么是偏见?
  • 偏见为何有害?
  • 数据偏见的多种类型和形式
  • 构建“更好AI世界”的几个重要方面
  • 结束语

什么是偏见?

如果致力于确保正在开发的产品遵循“更好AI世界”的所有书面指南,那么可能已经遇到了记录中的偏见情况。偏见模型、统计偏见或实施偏见是数据科学家日常工作的一部分。因此,首先,需要认识到偏见的存在,并了解它可能以任何形式出现。偏见是一个广泛的概念,它可能存在于数据收集、规则集或算法中,甚至在机器学习输出的解释阶段。

偏见为何有害?

偏见可能导致基于种族、年龄或性别等人类特征的不同可能性,这些都需要在开始项目之前予以制止。根据斯坦福大学发布的AI指数报告,AI/ML公司将以下风险视为行业固有的,并正在努力减轻这些风险,因为它们可能对业务和人类普遍不利。

数据偏见的多种类型和形式

结构性偏见:数据可能因为结构变化而产生偏见。女性与护士、厨师、教练的代表性是社会构建的外在表现。一家电子商务巨头试图构建一个招聘工具,捕捉他们当前团队的细微差别,这无疑是有偏见的。机器选择了许多属性,包括体育、社交活动、成就等,导致了一个倾向于男性的偏见工具。

数据收集:数据收集中的偏见可能基于一天中的时间、人们的年龄类别、出生国家、阶级地位等。输入算法的信息必须不断更新,以反映所处世界的实际情况,并反过来预测在这个大国世界中的未来生活状态。

数据操纵:删除没有标签或缺失值的案例要简单得多。但至关重要的是检查被移除的观察是否主要导致性别、种族、国籍等相关属性的代表性和处理不当的数据。

算法偏见:规则集或算法将分析事实样本建议它分析的内容。算法既反映了普遍存在的偏见,也可能放大它们。如果判断对特定人群有偏见,那么机器学习也会从训练事实中反映出来。算法中的偏见源于数据既不准确也不源于存在的偏见。如果输入的数据不平衡,那么需要确保算法仍然看到足够的少数类别实例以表现良好。获取信息重新平衡的方法不止一种,首先是包括人造数据创建或分配类别权重,以便算法对每个对少数类别的错误预测施加更大的惩罚。

实施偏见:所有机器学习原型都建立在训练和测试数据集必须属于相同分布的基本假设之上。一个在夏季数据上训练的版本可能具有特殊的特征分布,因此不适合预测消费者在冬季的行为。模型只会按照要求正确执行,前提是新数据与之前使用的数据集尽可能相似,该版本在此数据集上有效。现在不仅仅是实施,解释也可能有偏见。如果在分析规则或算法输出时,试图叠加信仰并支持(有偏见的)观点怎么办。

数据收集者、代码开发者和产品经理通常是在该领域工作并更接近数据获取和修改的人。组织需要提高员工的意识,并传播关于偏见可能的原因以及如何减轻它们的焦点。拥有一个擅长识别偏见来源的专业(AI伦理学家)可以帮助企业将其愿景与道德框架对齐。

在数据标记过程中创建黄金标准。黄金标准是一组反映项目最完美标记数据的统计数据。它允许计算团队的注释精度。

为数据标记期望制定明确的指导方针,以便数据标记者保持一致。

在数据精度可能受到偏见影响的任何项目中使用多通道注释。这包括情感分析、内容审核和目标识别等例子。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485