数据血统分析是指追踪数据从源头到最终用途的全过程,帮助企业理解数据的流动路径和时间线。许多企业和公司利用这一分析方法来洞察数据的来源、路径以及数据如何被使用,从而为未来的规划和产品或服务性能的提升提供数据支持。
本文将讨论三个数据驱动型企业——Netflix、Slack和Postman——如何实施数据血统分析并从中获益。将探讨这些公司的数据链接过程以及他们在实施和使用数据血统分析时所采用的技术。
Netflix坚信数据血统分析的好处,并已实施。在项目启动阶段,他们定义了设计目标,以指导架构和开发工作,交付一个完整、准确、可靠和可扩展的数据血统系统,映射Netflix多样化的数据景观。以下是其中的一些原则:
基于实体级别的标准数据模型,他们构建了一个通用的关系模型,描述任何一对实体之间的依赖关系。通过这种方法,他们可以创建一个统一的数据模型和仓库,为数据发现、SLA服务和数据效率等多种用例提供适当的支持。
Slack也相信数据血统分析的好处,并进行了投资。Slack表示,随着数据集变得更加复杂,贡献者数量增加,理解不同数据源之间的关系变得越来越具有挑战性。
为了使人们更容易使用他们的数据血统数据,他们制作了一个扁平化的层级表版本,并将其存储在Hive中。扁平化表允许人们在数据仓库中查询数据血统数据,并且使查询更容易编写/运行,以满足典型用例。
此外,借助数据血统,他们还开发了一个通知系统。他们在内部数据门户上构建了通知工具,允许数据消费者使用数据血统信息并通知下游消费者。有一个通知按钮,数据集所有者可以使用它来获取信息。
Postman也修复了他们数据层中缺失的一层。Postman的数据处理系统相当简单。他们有一组数据表,这些表的信息存在于他们早期数据团队成员的头脑中。当公司和数据规模较小时,这种方法是可行的,但随着公司开始呈指数级增长,这种方法需要帮助以跟上步伐。
Postman目前有分布在四大洲的数百名团队成员,以及来自50万家公司的1700万用户使用他们的API平台。
数据团队决定将Postman的数据系统作为一个项目来解决这个问题。他们的主要目标是使Postman的数据更容易访问和理解,无论是对于数据团队的新员工,还是对于公司中需要数据血统帮助的人。
他们使用数据血统来了解数据来自哪里以及它如何连接到其他层。数据血统帮助他们理解数据的连通性和系统上每天发生的bug和错误。它帮助他们更快地解决问题;毫无疑问,Slack团队只需查看数据血统就可以解决问题。他们还计划在数据血统方面采取进一步的步骤,使他们的数据管理更加易于访问和快速。
尽管数据血统被证明是大多数与数据和数据管理打交道的组织的最佳解决方案,但仍有一些情况下它被证明对组织来说是无用的。
一些组织存储了大量数据,并与许多数据源和存储打交道。对于这样的组织来说,数据血统可能是无用的,因为它需要为这些数据提供最可靠的信息。
数据血统提供了有关数据源和整个数据生命周期的信息;数据的设计血统可以帮助人们了解数据的头部和消费情况。然而,这对于理解数据流的架构师来说是有帮助的。然而,希望审计数据处理的业务主题专家可能会发现它难以导航。