在当今数据驱动的商业环境中,企业面临着海量数据的处理和分析挑战。传统的数据仓库虽然能够存储企业级的数据,但在特定部门或业务领域的数据分析中,数据市场(Data Mart)提供了一种更加灵活和高效的解决方案。数据市场的概念并非新近出现,它们至少存在了十年,最初是为了连接数据仓库和分析工具而构建的。随着组织收集的数据量不断增加,访问更小的数据集并从中获得洞察变得日益重要。因此,现在是时候开始考虑如何更好地利用数据市场,以及下一代数据市场将是什么样子的。
与存储企业级数据的数据仓库不同,数据市场包含与特定部门或主题领域相关的信息。例如,销售数据市场可能只包含与产品、客户和销售相关的数据。数据市场的设计初衷是为特定用户群体提供易于使用的数据分析数据,与数据仓库相比,每个数据市场都有特定的最终用户群体。用户数量的减少可以带来更好的响应时间。
数据市场还可以被商业智能(BI)工具访问。数据市场不包含重复或未使用的数据,并且会定期更新。它们是面向行业的、灵活的数据库。每个团队都有权开发和维护自己的数据市场,而无需修改数据仓库或其他数据市场。对于小企业来说,数据市场比数据仓库系统更合适,因为它的成本要低得多,构建所需的时间也比构建数据仓库要少。
当需要为特定部门规划和设计数据市场时,需要考虑以下原因:如果想要使用用户访问控制策略来划分数据;如果某个部门希望查询结果比扫描大型数据仓库数据更快;如果部门希望数据建立在其他硬件或软件平台上;如果部门希望数据适合其工具的设计。
构建成本效益的数据市场可以遵循以下步骤:确定功能部门,将组织的数据划分为每个数据市场(部门)所需的特定数据,以满足其需求,而无需额外的组织依赖性。数据市场支持所有这些内部结构,而不会破坏数据仓库数据。一个数据市场可以与一个工具相关联,根据用户的需求。数据市场还可以为这些工具提供每日更新的数据。
数据市场的成本可以按以下方式估算:硬件和软件成本,任何新增的数据市场可能需要额外的硬件、软件、计算能力、网络和磁盘存储来处理最终用户请求的查询。这使得数据市场成为一个昂贵的策略。因此,预算应该精确计划。网络访问,如果数据市场的位置与数据仓库的位置不同,所有数据都应通过数据市场加载过程传输。因此,应提供网络以传输大量数据,这可能是昂贵的。时间窗口限制,数据市场加载过程所需的时间将取决于各种因素,如数据的复杂性和体积、网络容量、数据传输机制等。
数据市场分为三种类型,即依赖型、独立型和混合型。这种分类基于它们的数据填充方式,即可以是数据仓库和其他数据源。提取、转换和传输(ETT)用于从任何源系统填充数据市场的数据。
让详细了解每种类型!
1) 依赖型数据市场
依赖型数据市场从现有的数据仓库中获取数据。这是一种自上而下的方法,因为重新组织的数据部分被提取到数据市场中。数据市场可以逻辑上或物理上使用数据仓库的数据,如下所示:逻辑视图:在这种情况下,数据市场在物理上并未与数据仓库分离。它通过虚拟视图(或)表逻辑上引用数据仓库数据。物理子集:在这种情况下,数据市场在物理上与数据仓库分离。一旦开发了一个或多个数据市场,可以允许用户仅访问数据市场或同时访问数据市场和数据仓库。对于依赖型数据市场,ETT是一个简化的过程,因为可用的数据已经存在于集中的数据仓库中。同一组汇总数据只需要移动到适当的数据市场中。
2) 独立型数据市场
独立型数据市场最适合组织中的小部门。在这里,数据并不来自现有的数据仓库。独立型数据市场不依赖于企业数据仓库或其他数据市场。独立型数据市场是自包含的系统,它们从外部(或)内部数据源提取、转换和加载数据。只要它们支持部门的简单业务需求,这些系统就很容易设计和维护。与独立型数据市场的ETT过程的每个阶段,需要像数据被处理到集中的数据仓库中一样工作。然而,数据市场填充的资源和数据量可能较小。
3) 混合型数据市场
在混合型数据市场中,数据从数据仓库和其他操作系统中集成。这些灵活且具有大存储单元,也可以链接到其他数据市场。
数据市场实施步骤
数据市场实施被认为是有点复杂的,以下是步骤:设计,构建,填充,访问和管理。
设计:由于业务用户需要数据市场,设计阶段涉及收集需求,从适当的数据源创建适当的数据,并创建逻辑和物理数据结构和ER图。
构建:团队将在数据市场系统中设计所有表、视图、索引等。
填充:数据将被提取、转换并加载到数据市场中,带有元数据。
访问:数据市场数据可以被最终用户访问。他们可以查询数据以进行他们的分析和报告。
管理:包括各种管理任务,如控制用户访问、优化数据市场性能、维护现有数据市场,并在系统故障时创建市场恢复场景。
数据市场结构
每个数据市场的结构都是根据要求创建的。数据市场结构称为星型连接。这个结构将因数据市场而异。星型连接是包含事实表和维度的多维结构,以支持大量数据。星型连接将有一个事实表在中间,周围是维度表。相关的事实表数据通过外键引用链接到维度表数据。一个事实表可以被20-30个维度表包围。与数据仓库系统类似,事实表只包含星型连接中的数字数据,相关的文本数据可以在维度表中描述。这种结构类似于数据仓库中的星型方案。
可以在有限数量的用户的小环境中部署试点项目,以确保部署成功后再进行全面部署。然而,这并不总是必要的。一旦目的得到满足,试点部署将变得无用。必须考虑他们推荐的以下试点部署场景:如果最终用户对数据仓库系统不熟悉。如果最终用户希望在进入生产环境之前舒适地获取数据/报告。如果最终用户希望亲身使用最新的工具(或)技术。如果管理层希望在作为主要版本之前看到作为概念验证的好处。如果团队希望确保所有ETL组件(或)基础设施组件在发布前工作良好。
尽管数据市场比数据仓库有一些优势,但它们也有一些劣势,如下所述:创建的数据市场很难维护。为小企业设计的数据显示市场。增加数据显示市场的大小会降低它们的性能。如果正在创建许多数据显示市场,管理层应该妥善管理它们的版本控制、安全性和性能。数据显示市场可以包含历史(或)聚合(或)粒度数据。然而,由于数据不一致性,数据仓库数据和数据显示市场数据可能不会同时更新。