在当今的商业环境中,建立一个以数据为核心的文化是许多现代组织的重要目标之一。数据驱动文化意味着在组织的所有层级中,决策都是基于数据而非直觉。然而,数据和数据处理工具的访问权限往往仅限于少数技术用户或高层管理人员。
没有数据的民主化,就无法实现数据驱动文化。数据民主化并不意味着对所有组织数据的无限制访问。数据民主化的目标是,能够帮助员工做出有效商业决策的数据应该以可用的格式快速提供给他们,且不需要他们成为技术数据专家就能理解。
以下是数据科学家大部分时间花费在何处的调查结果:平均而言,数据科学家将近80%的时间用于数据准备。尽管如此,这是否是他们时间的良好利用呢?尽管大部分时间都花在数据准备任务上,但大多数数据科学家发现这些任务是他们工作中最不令人愉快的部分。这种观察来自于技术最先进的数据用户社区。可以理解的是,人们希望从数据中获得洞察,但却不得不花费太多时间在数据准备本身,从而阻碍了数据驱动文化的传播。
为了解决这个问题,传统上,组织会指派一个集中式的数据工程团队来创建企业级的数据仓库或数据湖。然后,分析师可以接入这个中央数据存储来获取洞察。然而,这种数据交付模型目前正面临压力。让为描绘一个场景:想象一下,如果需要一个额外的指标来完成数据分析,但这个指标需要在数据仓库中额外处理数据。为了获得集中式数据工程团队的服务,员工需要等待轮到他们,即使这是一个他们自己能够编写的小改动。
集中式数据工程服务存在三个主要问题:
有趣的是,解决定制交付模型的可扩展性问题的解决方案也来自时尚行业——成衣。时尚公司生产各种标准尺寸的成衣作为现成产品。但如果客户仍然需要小的定制,她总是可以以更低的成本和时间获得,与从头开始的定制解决方案相比。
借鉴类似的类比,数据工程团队也可以通过集中管理重型技术方面,同时建立技术、流程和人员实践,以实现业务用户在自助服务模型中进行小规模定制,从而实现规模化。让看看哪些组件可以作为管理服务集中交付:
平台即服务(PAAS/SAAS)
——创建数据管道和执行分析的基础设施由中央管理。理想情况下,应包括工具和应用程序。平台应具有高度可扩展性,最好基于云数据即服务(DAAS)
——通过创建集中的数据湖产品,集中管理数据采购、数据质量和性能计划分散的唯一组件是之前数据管道中的业务逻辑组件。特定领域的业务逻辑组件应该分散到更接近领域的技术用户,如数据分析师和数据科学家。
组织在推广数据驱动文化方面面临重大挑战,原因如下: