数据驱动文化与数据民主化

在当今的商业环境中,建立一个以数据为核心的文化是许多现代组织的重要目标之一。数据驱动文化意味着在组织的所有层级中,决策都是基于数据而非直觉。然而,数据和数据处理工具的访问权限往往仅限于少数技术用户或高层管理人员。

没有数据的民主化,就无法实现数据驱动文化。数据民主化并不意味着对所有组织数据的无限制访问。数据民主化的目标是,能够帮助员工做出有效商业决策的数据应该以可用的格式快速提供给他们,且不需要他们成为技术数据专家就能理解。

通过确保数据访问来实现数据民主化

以下是数据科学家大部分时间花费在何处的调查结果:平均而言,数据科学家将近80%的时间用于数据准备。尽管如此,这是否是他们时间的良好利用呢?尽管大部分时间都花在数据准备任务上,但大多数数据科学家发现这些任务是他们工作中最不令人愉快的部分。这种观察来自于技术最先进的数据用户社区。可以理解的是,人们希望从数据中获得洞察,但却不得不花费太多时间在数据准备本身,从而阻碍了数据驱动文化的传播。

集中式数据工程服务能否帮助数据民主化

为了解决这个问题,传统上,组织会指派一个集中式的数据工程团队来创建企业级的数据仓库或数据湖。然后,分析师可以接入这个中央数据存储来获取洞察。然而,这种数据交付模型目前正面临压力。让为描绘一个场景:想象一下,如果需要一个额外的指标来完成数据分析,但这个指标需要在数据仓库中额外处理数据。为了获得集中式数据工程团队的服务,员工需要等待轮到他们,即使这是一个他们自己能够编写的小改动。

集中式数据工程服务存在三个主要问题:

  • 定制设计和交付模型不可扩展
  • 当集中团队需要在数据管道中编写业务逻辑时,业务逻辑的所有权会被稀释
  • 由于数据管道需要从源提取数据,并且需要根据业务规则转换数据,这些管道可能对源和目标端的变化高度敏感。这种源和目标之间的紧密耦合会多次推高数据管道的维护成本

数据工程团队如何实现规模化

有趣的是,解决定制交付模型的可扩展性问题的解决方案也来自时尚行业——成衣。时尚公司生产各种标准尺寸的成衣作为现成产品。但如果客户仍然需要小的定制,她总是可以以更低的成本和时间获得,与从头开始的定制解决方案相比。

借鉴类似的类比,数据工程团队也可以通过集中管理重型技术方面,同时建立技术、流程和人员实践,以实现业务用户在自助服务模型中进行小规模定制,从而实现规模化。让看看哪些组件可以作为管理服务集中交付:

  • 平台即服务(PAAS/SAAS)——创建数据管道和执行分析的基础设施由中央管理。理想情况下,应包括工具和应用程序。平台应具有高度可扩展性,最好基于云
  • 数据即服务(DAAS)——通过创建集中的数据湖产品,集中管理数据采购、数据质量和性能
  • 数据治理——在分散交付模型中,数据治理在中央舞台上占据更重要的位置,因为每个治理失误都可能被能够直接操纵数据的用户数量放大。数据工程团队需要在开放整个组织的数据访问之前,重新关注质量、访问、血统、编目等方面

计划分散的唯一组件是之前数据管道中的业务逻辑组件。特定领域的业务逻辑组件应该分散到更接近领域的技术用户,如数据分析师和数据科学家。

组织在推广数据驱动文化方面面临重大挑战,原因如下:

  • 数据访问受限
  • 如果访问权限可用,那么它是通过报告等只读格式提供的,限制了对数据的操作,这对于数据民主化至关重要
  • 访问原始数据并不能实现数据民主化,因为太多的时间花费在重复和冗余的数据准备任务上
  • 集中式数据工程团队由于定制交付模型而面临可扩展性挑战
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485