见证了数据量的激增,不仅仅是数据收集的数量,还有数据来源的多样性。疫情无疑加速了这一趋势,对于商业和数据领导者来说,拥有高质量和一致性的数据已成为成功推动业务成果的关键任务。
如果是数据团队的一员,无论是数据工程师、数据科学家、数据产品经理、数据分析师等,可能已经听说过基于处理的数据类型或其主要用户群体的各种数据治理问题。
数据标准化和完整性:上游数据格式的变化使得数据或其衍生品因此变得不太可用。
数据定义:对某些数据字段/列/属性的误解定义或重复或不一致的定义。
数据访问和用户角色:由于日志记录不佳或标签不足,谁在访问数据以及出于什么目的变得模糊不清。
一个数据湖或数据仓库托管了消费者和生产者用户群体的数据,如果没有适当的治理,很快就会导致混乱的操作和计划外的紧急情况。
因此,对数据、其内容、结构、使用、隐私和安全进行控制是必要的。每个组织都需要根据数据集的复杂性、他们处理的数据类型以及围绕数据及其使用模式的监管要求,在不同层面上实施这些控制。
1. 与相关利益相关者创建并达成政策框架的一致意见。
2. 一致地实施这些政策。
3. 承诺持续评估和适应。
传统上,这是一个仅限于定义决策权规范和责任框架的操作功能,以确保在数据和分析的价值评估、创建、消费和控制中的适当行为。
最近,数据治理被视为一种官僚方式来控制数据,这阻碍了其使用并损害了数据驱动的决策文化。因此,与其帮助民主化数据,它被视为一个阻碍功能。毫无疑问,需要数据治理来降低不合规的风险、成本与可重用性,提高生产力,并总体上给数据消费者在决策中的信心。
最近,DataOps也作为一个概念出现,帮助朝这个方向前进,并重新构想数据治理,将数据工程、分析师、运营、数据科学家、数据管理员和业务团队聚集在一起。Gartner定义DataOps为“一种协作的数据管理实践,专注于改善数据管理者和组织内数据消费者之间的沟通、集成和自动化数据流”。
对于良好的数据治理,有一些主要目标或目标。以下概述了目前使用的的数据治理框架:
包括相关变更管理的统一单一真相源。
这涉及为所有数据的整个生命周期定义所有者、治理管理员、主题事项或功能专家以及支持团队。
将法律和隐私要求作为集中组件处理。
可用性方面从数据发现、分析、业务友好定义、用户灵活引入自己的工具与计算开始,以及作为技术栈一部分的另一系列配置服务。
所有这些功能理想情况下应该是数据平台治理和目录的一部分,以支持平台的透明度和问责性,并维护/更新工具和流程,使其成为所有参与团队的集体责任。
为了在平台上建立信任,重要的是带来透明度并就什么构成真相达成一致,并在何时、如何或在哪里发生变化时对齐。
元数据管理
具有主动文档编制的元数据管理也许是整体数据管理实践中最难的部分之一。
有两种类型的元数据 - 业务和技术。
业务元数据涉及从用例角度定义每个列,并维护一个上下文数据目录和文档,以便于使用。
技术元数据涉及分配数据类型和定义收集的数据格式。这通常是数据模式的一部分,需要与数据的生产者和消费者或某些业务转换版本的数据对齐。
它还有助于遵循平台级别的标准化命名约定,以预测和使用数据。
提前定义度量标准以衡量数据质量,包括数据的新鲜度。有许多数据可观察性框架可以跟踪数据的质量。没有人喜欢陈旧的数据,因此通过保持定期的周期或数据集的滚动窗口刷新来保持数据新鲜是很重要的。每个数据集都是不同的,因此必须根据业务需求配置技术以建立对数据的信任。
以下是一些示例:
缺失或无效的列数据 - %数据具有Null值或不同格式
数据量水平 - 阈值以评估数据量的异常增加或减少
数据新鲜度水平 - 保持与利益相关者对齐的周期或每个数据集的滚动窗口刷新
对于一次性上传的临时数据集,监控数据质量状态,并根据需要启用归档功能。
元数据变化
在计划更改数据集的格式、结构、体积或列定义之前,需要事先有一个清晰的握手和标准化流程。需要定义具有明确记录政策的协议。这应该是整体数据团队文化的一部分,并得到领导团队的认同,作为跨团队合作的一部分。
为了实现可靠性,重要的是不仅要在数据管道的最后一段定义服务水平协议,直到最终消费者,而且要一直上溯到源头(原始日志)。数据工程和业务团队需要对数据可用性服务水平协议和目标保持一致。基于此,应适当放置监控和警报。每个数据集对每个消费者来说都是不同的优先级,因此为了减少警报/警报的数量,提供可以在平台上自订阅的配置功能。
应在平台上对齐并标准化处理变化的机制。
工具和技术
需要从业务和技术分析变化的影响。可追溯性和数据血统是一些有助于版本控制的功能,以评估任何潜在变化的影响或用于审计或重置。
流程