计算机视觉技术已经深入生活的方方面面,从识别简单的物体如树木和羊角面包,到检测更为复杂的事件,如石油和甲烷泄漏。如今,这些模型甚至能够读取车牌和收据。计算机视觉正在改变世界,其应用范围广泛且令人惊叹。
当讨论代表性数据的重要性时,通常是指正在教授模型检测的对象周围的环境。例如,如果正在训练一个模型来识别轮胎上的轮毂螺母,希望数据集包括在明亮和昏暗的光线下、不同类型的轮毂盖和轮胎的任何角度或旋转下的轮毂螺母的图像。
这些原则当然同样适用于遇到的对象本身的显著多样性——例如,在人类检测中。考虑一个装有小型摄像头的肥皂分配器,用于检测手的存在;如果只在这个模型上训练白人/高加索人的手的图像,那么肥皂就不会分配给任何深色皮肤的人。将这一点推广到自动驾驶汽车的行人检测,代表性数据在训练集中的重要性就变得显而易见且紧迫。
在很多方面,这些模型反映了自己的文化偏见,突出了源数据集多样性的不足,也许(更广泛地说)是世界观的不足。以与教育孩子类似的方式教授模型——但在现实世界中,无法控制的外部力量可以影响儿童的发展。这在训练计算机视觉模型时并非如此,这是一个优势,也是视觉架构师的劣势。机器学习不受外部影响,只有当工程师采用了主动学习——或者收集推理数据反馈到训练集中的过程——模型才会在遇到真正的多样性时改进。
因此,模型性能的差异几乎总是可以归因于人为错误和/或疏忽——所以从很多方面来说,这些模型反映了自己的文化偏见,突出了源数据集多样性的不足,也许(更广泛地说)是世界观的不足。
当然,皮肤色素沉着并不是在构建一个能够在任何情境或能力下检测人类的模型时必须考虑的唯一变量。根据模型本身的独特用例和目的,有许多变量可以预见它在部署中可能会遇到。
已经在下面概述了一些,虽然这个列表远非详尽无遗,但至少旨在启动对话,让客户思考,并提出包容性是计算机视觉领域的一个重要组成部分的观点。
信不信由,直到1992年,公共场所和由州或地方政府建造的建筑物才被要求对残疾人完全无障碍。从那时起,已经在确保不仅政府建筑,而且社区对所有能力的人都是无障碍的方面取得了长足的进步——但仍然有工作要做。随着不同行业探索并采用计算机视觉进入现有的工作流程和新产品及服务,将无障碍性放在首位至关重要;忽视这一考虑,就有可能抵消社会在过去三十年中取得的进步。
相关应用无处不在。考虑一个模型,它计算进入公共场所的人数(以保持容量在或低于防火规范),或者通过确定有多少人在游乐园最佳游乐设施的排队中来评估等待时间——这些模型知道识别坐着和站着的人吗?使用拐杖或手杖的人?
根据定义,计算机视觉完全依赖图像来工作。这是一种在视觉数据(输入)上训练的技术,因此只能通过解释视频画面或静态图像来生成模型预测(输出)。计算机不能“看到”宗教、精神性甚至道德——因此,这项技术不能因此根据其内在信仰更多或更少地包容人类主体。
这是真的,当然,但模型可以看到服装的变化——对中的一些人来说,衣服不仅反映了谁,还反映了相信什么。如果正在训练一个模型来检测人耳,例如,当它遇到被头巾、头巾、帽子和装饰性珠宝部分遮挡的耳朵时,模型会如何反应?
可以通过积极解决这些差异作为数据集中已知的差距,确保模型对这些不同的表现形式做出响应。这可能意味着纳入穿着布卡、亚马克、帽子和头巾的人的图像——这种意识将提高模型对所有人的性能,无论他们的宗教信仰如何。
六月是骄傲月,如果在这个话题中遗漏了性别认同和性取向的许多生动和交织的复杂性,那将是失职。一些计算机视觉应用可能需要模型根据其首选的性别表达来理解和区分人。在这里,有机会开发存在于异性恋框架之外的视觉技术——直到今天,这个框架以可能还没有完全意识到或欣赏的方式限制了跨行业的创新。
一个很好的例子可以在航空旅行中找到。大多数机场的TSA人体扫描仪要求操作员在乘客进入机器进行扫描之前按下“女性”或“男性”图标。这些扫描仪没有为操作员提供性别中立的选项,这一遗漏导致了常规和不必要的搜身。这项技术没有考虑到其主体的不可避免的流动性;因此,它是一台效果较差(效率较低)的机器。
现在知道,技术在塑造对许多边缘化群体的文化理解(和接受)方面发挥着关键作用。计算机视觉也不例外。事实上,可以说正在构建的模型将为未来世界奠定基础。那个未来应该是什么样子?谁被机器“看到”,谁被留下?
创建代表性数据集不仅对道德原因很重要,而且与良好的商业实践相一致。考虑和识别模型在野外可能遇到的变异(以多样性的形式)的过程总是会导致更好的性能。
今天提出的问题触及了所有民主体系共有的脆弱性:计算机视觉能否摆脱人类条件的固有偏见?毕竟,模型的公平性只取决于创造它们的人。这项技术没有种族主义或能力主义的概念,没有对任何特定宗教或信仰集的偏好,它不受性别二元论的约束——这些都是独特的人类特征,它们在一生中直接和间接地被教导给。