在当今的商业环境中,企业面临着数据管理和报告的挑战。即使是提出一些基本问题,比如“在某些地区有多少客户?”或者“20多岁的客户最常购买哪种产品?”也可能变得十分困难。数据存储库的建立本应解决这些挑战。自20世纪80年代中期以来,数据存储的概念已经发生了巨大变化,它已经演变成一个独立的学科,以应对商业世界日益增长的挑战和复杂性。这导致了更好技术和更强商业实践的出现。
最初,建立数据仓库的目的是为了让公司能够存储他们可以用来回答问题的分析数据源。这仍然是一个重要因素,但今天,公司需要大规模地轻松获取信息,并且拥有多样化的最终用户群体。定义的用户已经从专业的工程师大大扩展到几乎任何可以拖放至Tableau的人。
如果计划构建一个数据存储库,理解数据存储的最终用户是至关重要的。使用现代工具从Snowflake或BigQuery等平台拉取数据而没有优先考虑最终用户是容易的,但目标应该是创建一个基础的数据层,任何人都能容易理解。归根结底,数据是数据团队的产品,需要像任何其他功能或产品一样易于理解、可靠和易于使用。
数据只是一种有用的产品。那种新的石油数据仍然很重要,但数据实际上是当前的。它被期望能够工作。不想要原油,想要高辛烷值的燃料。希望能够将燃料直接插入汽车并顺利运行。随着人们越来越接近这个产品,它需要被使用。这意味着它应该是:
评估公司的数据流程可以极大地改善最终用户对指定数据的体验。总体而言,作为产品的数据处理遵循先进的流程,帮助从原油到高辛烷值燃料的数据捕获。
在构建数据存储库时,使用最佳实践是很重要的。然而,也很重要不要反应过度。许多仓库数据解决方案甚至不支持(或未配置)一些最常见的数据匹配方法。但这并不意味着可以在没有标准或建模的情况下自动将数据上传到数据库。不需要咄咄逼人,但要保持一致。如果要犯错误,就犯同样的错误。这意味着需要设定标准,以便开发者清楚地知道他们应该期待什么。
为了确保分析师能够快速识别列的含义,需要有共同的命名约定。使用一致的数据类型,如“ts”,“date”,“is_”等,确保每个人都知道他们在看什么,而不需要查看数据文档。这类似于旧的设计原则,即形容词描述列的建议。
总体而言,尽量避免在关键层使用复杂的数据结构,如数组和字典,因为它们会减少分析师可能的困惑。
IDS允许分析师跨多个系统整合数据。回顾职业生涯,这种优秀的实践产生了深远的影响。当IDS没有挂起时,完全无法连接数据集,无论多么有才华。相比之下,当在有系统确保跟踪系统IDS的公司工作时,能够流利地连接非常不同的数据集。