随着人工智能和机器学习在各行各业的广泛应用,个人信息成为了AI系统学习所需的重要信息之一。这引发了关于隐私保护以及可能利用这些系统对个人进行歧视的担忧,特别是在就业、贷款、住房等领域的决策中。为了解决这一问题,研究人员开发了合成数据这一解决方案。合成数据是人工生成的数据,它模仿真实数据的统计特性。本文将探讨合成数据是什么以及它的功能。
合成数据可以通过基于特定假设和设置的算法或计算机程序模拟数据来创建。合成数据的目的是创建一个庞大且多样化的数据集,这些数据集可以用于各种目的,例如测试机器学习模型或进行研究研究,而不会危及真实个人或组织的隐私或安全。
合成数据集是由计算机算法或模型生成的数据集,而不是从现实世界观察中收集的。它模仿真实数据集的统计属性和特征,而不包含该数据集中的任何实际数据点。这些是在各种应用中的真数据的替代品,例如训练机器学习模型或进行数据分析。它们在真数据稀缺、昂贵或难以获得,或者隐私问题限制了真数据的使用的情况下特别有用。可以使用各种技术生成它们,例如生成对抗网络(GANs)、变分自编码器(VAEs)和模拟模型。
保护隐私是合成数据研究的主要驱动力之一。由于人工智能和机器学习的进步,对用于训练这些系统的数据处理的担忧正在增加。这些算法需要大量数据来学习,这些数据是个人信息。系统可能会泄露个人信息或在招聘、借贷和住房时歧视个人。
用户可以使用合成数据构建不包含任何真实个人或组织个人信息的其他版本的数据,确保他们的数据安全且不公开。因此,合成数据提供了一种安全的研究和算法开发方式,而不会危及用户隐私。
除了隐私问题外,创建和维护任何数据集都可能很昂贵。在某些情况下,可能没有足够的现实世界数据可用,例如在使用成像技术尝试识别罕见的医学疾病时。
根据其支持者的说法,合成数据可以通过比从现实世界获取缺失信息更快、更经济的方式填补数据集的空白,从而绕过这些问题。研究人员现在有了一个实用的方法来解决数据可访问性和可用性的问题。
“想摆脱仅仅关注隐私,”英国剑桥大学医学人工智能中心主任、机器学习研究员Mihaela van der Schaar说。“希望合成数据能帮助创造更好的数据。”