当前十年见证了数据驱动技术与人工智能的空前增长,带来了无限机遇。自上一个十年以来,随着数据科学和人工智能开始进入主流生产环境,大规模数据的收集与维护变得不可避免。尽管大多数组织从其用户基础中收集了大量数据,但他们往往不知道如何处理这些数据。仅仅拥有最先进的云基础设施并不能解决组织的数据管理问题。数据泄露变得司空见惯,法规和合规性常常未能满足,安全政策执行不力,数据孤岛不断增加,伴随着大量的技术债务,最终导致对分析和人工智能应用的信任度下降。人工智能应用必须是可靠、负责任和透明的。像任何其他技术一样,影响商业和人类生活的人工智能工具应该提供预期的结果。但是,没有可信赖的数据,就无法提供可信赖的人工智能。
组织不断努力协调、治理、分析数据资产,并以信任和透明度发展有意义的数据产品。建立在薄弱数据策略上的人工智能解决方案可以带来临时价值,但不存在长期影响。现代数据策略融入组织的流程和工作流程是发展创新和可信赖人工智能实践的主要驱动力。
组织需要精心制定其数据策略,以实现成熟的、以创新为驱动的分析实践。以下是数据团队在企业数据策略中应该解决的五个关键方面,以发展可信赖的人工智能实践。
如果没有跨组织的统一数据政策,许多部门通常会发展数据孤岛。每个部门可能都有自己的数据团队,收集、存储和控制该部门的数据资产。这些数据孤岛不易被其他部门或通常在组织层面上访问。这些是数据驱动合作和创新的最大障碍。它们限制了数据的360度视图,并阻止了数据的完整性和透明度。为了发展有影响力的人工智能应用和通过分析提取有意义的洞察,民主化数据至关重要。有时可能需要改变公司文化,特别是如果它是保守类型,需要高管级别的支持。发展数据资产的集中视图是必要的。通过数据织物和数据网状架构的数据融合和数据虚拟化也可以解决这个问题。创建共享数据平台可以促进创新和敏捷性。
大多数组织在多租户和多技术环境中工作。在这种环境中,如果没有对数据资产从获取到处置的持续管理,衡量潜在的风险和安全威胁以及性能是困难的。通过适当的身份和访问管理、数据粒度、数据匿名化、政策启用、可行性研究和影响分析,可以实现与业务成果一致的规模化数据治理。跨行业数据共享也在获得关注,应该存在强大的数据治理流程。金融、保险、医疗保健等领域的欺诈检测发展了新的商业用例。有了适当的数据治理,组织可以专注于开发可市场化的人工智能应用,而不必担心合规性、限制和监管风险。它还增加了消耗企业数据的人工智能应用的透明度和信任度。云解决方案如Azure Purview或AWS上的Collibra提供具有自动化数据发现、敏感数据分类、端到端数据血统等的数据治理解决方案。
编排有助于结合和组织来自多个来源和数据孤岛的数据。自动化数据编排帮助组织通过不同的预处理和后处理方法流线化数据驱动的决策制定。通过数据操作、转换和负载平衡实现的数据编排准备,可以加速以安全和受信任的方式进行基于人工智能的决策。它也可以嵌入到数据工程管道中作为自动化工作流。云平台推出了具有多种功能的数据处理编排工具。Azure平台有Azure Data Factory、HDInsight上的Oozie和SQL Server Integration Services (SSIS)可用于管道编排、控制流和数据移动。AWS Step Functions提供无服务器数据处理编排服务,通过结合不同的AWS服务构建应用程序。GCP的Cloud Composer是基于Apache Airflow的完全管理的数据编排服务。
Gartner, Inc.
估计,数据质量差每年平均给组织带来1290万美元的成本。组织必须在收集、存储和传输过程中建立强大的数据质量管理(DQM)框架。原始数据通常不可信,质量差,缺乏意义。应定期检查数据完整性和不一致性,明确数据剖析、数据所有权和问责制。应该有明确定义的数据质量规则、标准和自动化评分,并且需要正确跟踪改进。高质量的数据构建了负责任和可信赖的高质量人工智能应用。Gartner Magic Quadrant
为数据质量解决方案在2021年9月发布,显示Informatica Data Quality (IDQ)、IBM InfoSphere、SAP Data Services、Talend Open Studio、Precisely Data360等作为数据质量解决方案市场的市场领导者。
随着企业数据在每个行业的指数级增长,组织对其应用程序拥有不同和异构的数据源。没有适当地从源到目的地映射数据,就无法利用企业数据的全部潜力并查看它们之间的关系。在数据集成、迁移或转换工作中,标准化的数据映射过程是不可或缺的。数据血统为企业数据流及其从源到目的地的操作提供了图形表示。适当的数据目录可以帮助组织和搜索数据资产,并管理元数据。所有这些过程对于构建可信赖的人工智能管道都是有用的。它通过端到端映射数据源和数据资产上发生的数据转换,为人工智能应用带来透明度。虽然云供应商提供数据血统工具作为其服务,但其他关键参与者也在这一解决方案领域,如Dremio、Talend、Atlan、OpenLineage等。