数据仓库建模与模式设计

从原始数据中提取洞察可能是一项繁琐且准确性不高的任务。如果原始数据更加有序和清洁,这个过程会不会变得更简单呢?这时,数据仓库就显得非常有用。数据仓库是构建包含必要数据的数据仓库的过程。需要归档并存储数据以备将来使用。ETL(提取、转换和加载)将原始数据转化为信息。通过本文,让了解模式及其在数据仓库建模中的作用。

数据仓库

数据仓库是一个数字位置,用于存储来自多个来源(如数据库和文件)的数据。为了解决业务问题并做出数据驱动的决策,需要挖掘数据。通过这个中央数据存储库来获取洞察和生成报告。它基于OLAP(在线分析处理)工作。因此,它是存储组织历史和归档数据的位置。它也是唯一的真相来源。所有所需的信息(组织数据)都集中在一个地方。它有助于回答详细的问题并发现历史数据中的趋势。

数据建模

在建造建筑物之前,首先需要创建其设计并制作模型。同样,要创建数据仓库,首先需要使用数据仓库建模工具和技术来设计它。这样做是为了在现实世界中表示数据,并查看业务概念之间的关系。数据仓库建模是设计汇总信息到模式的过程。

模式

模式是对整个数据库的逻辑描述。它为提供了关于不同数据库表之间通过键和值链接的简要想法。数据仓库也有一个像数据库一样的模式。在数据库建模中,使用关系模型模式。而在数据仓库中,使用星型、雪花和银河模式建模。

模式中的关键概念

主键 - 在关系数据库中具有唯一值的属性。没有重复值。用其唯一值识别每条记录。在上面的例子中,Stud_id是主键。这是因为每个学生只有一个唯一的ID。

外键 - 在关系数据库中链接一个表到另一个表的属性。它指的是另一个表的主键。在上面的例子中,Stud_id是部门表的外键。这是因为它是学生表的主键。通过连接将学生和部门表链接在一起。

维度 - 维度是维度表中的列名。此外,维度在其表中有其属性的细分。使用维度作为描述和标记信息的结构化方式。维度表是描述维度的表。例如:日期、产品和客户是一些常见的维度。

度量 - 事实表中的定量属性。对它们执行平均值和总和等计算。例如:产品数量、折扣。

事实表 - 事实表包含来自维度表的维度键和度量。这里的度量是为了分析而执行计算。维度键和度量描述了业务流程的事实。事实表由感兴趣的测量组成。例如:Product_id, Date_id, 产品数量。

模式定义

数据挖掘查询语言(DMQL)定义了多维模式。使用多维模式,建模数据仓库系统。数据立方体定义和维度定义是两个原语。这是因为以数据立方体的形式查看数据。它们有助于定义数据仓库和数据集市。

数据仓库模式类型

星型模式 - 星型模式是最简单的模式。它有一个事实表在中心,链接到具有属性的维度表。它也被称为星型连接模式。它在维度表和事实表之间有主键和外键关系。它是非规范化的,意味着它不像关系数据库那样进行规范化。它的特点是只用一个维度表表示每个维度。例如:Fact_Sales表有Date_id, Store_id, 和Product_id作为维度键。这些键链接到每个键只有一个维度表。

雪花模式 - 雪花模式是星型模式的扩展版本,其中维度表进一步细分。这意味着有许多维度表级别。这是因为这里规范化的维度。规范化是一个分割数据以避免数据冗余的过程。这个过程细分了表,增加了表的数量。雪花模式不过是规范化的星型模式。

银河模式 - 它由多个事实表组成,这些事实表链接到具有属性的维度表。它也被称为事实星座模式。一致的维度是与事实表共享的维度表。可以进一步规范化这个模式中的维度,但这会导致更复杂的设计。

在本文中,学习了什么是模式,它们的不同类型,以及它们在数据仓库建模中的作用。有一些关键概念,如什么是主键、外键和事实表。它们在发展对模式的理解中起着重要作用。模式通过设计数据模型来帮助了解业务概念之间的关系。因此,它们在将原始数据转化为信息中扮演着巨大的角色。

1. 模式有助于定义不同数据库表之间的关系。主键-外键关系形成了链接。

2. 规范化和事实表的数量决定了形成哪种类型的模式。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485