数据仓库的概念可以追溯到20世纪80年代。在计算机科学领域,IBM是一个不可忽视的名字。数据仓库(DWH)最初由IBM的杰出研究员Barry Devlin和Paul Murphy提出,并建立了“商业数据仓库”这一企业概念。他们的目标是辅助信息流架构,从系统执行的方式转变为决策支持环境,通常通过关系数据库技术实现,即关系数据库管理系统(DBMS)。
数据仓库(DWH)的魅力在于它包含了过去交易中收集的历史数据,提供集成的、企业范围的、历史数据,并专注于为决策者提供数据建模和分析的支持。这些数据来自一个或多个不同的数据源。这就是为什么数据工程师认为数据仓库是一个值得探索的重要领域。通过利用这一古老技术并引入新的高效选项,可以有效满足数据科学中对数据的需求。数据仓库的一个关键目的是促进管理决策。
数据仓库是一个组织为管理其交易而开发的结构化数据存储库,捕捉所有约束以做出明智的决策,从而控制商业环境。这些数据与实际的业务系统分离,意味着它不是实时系统的一部分,而是为以后使用而收集的。它通常不与默认系统一起处理。DW作为业务的备份,保存可以用来进行比较的映像。这种能力使得引入现代数据技能,如机器学习,变得可行和简单。
将讨论以下三种类型的数据仓库应用:
信息处理:这类应用允许通过查询获取数据并得到实际结果,例如通过查询获取本月出生的客户。这些结果被实际使用并用于业务决策。
分析处理:其次是分析处理应用,数据仓库可以同时允许多种需求的分析。尽管可以使用其他可能性,如钻取,但它只简化到详细级别。钻取从层次结构级别追踪到细节级别,进行根本原因分析。
数据挖掘应用:这是一种数据仓库应用,允许搜索甚至未知的特征。与寻找已知的查询或某物不同,数据挖掘允许发现未知的模式。这是许多企业需要数据分析师进行的强大方面。由于结果未知且通常是新发现,数据分析师有责任通过一种称为讲故事的技术将此传达给公司。
不同的数据系统不适合数据仓库。预计这些特点中的一些应该被用来识别一个。
通信性:这个特点允许数据仓库在不同的数据源之间进行集成。这是通过不同的关系方法连接数据库并允许文件传输来完成的。它可以是一对一、一对多或多对多。文件等。数据仓库的好处仍然是管理各种文件而不会发生任何冲突,这可能是格式问题。
时间序列:这允许数据仓库有序地组织其数据,因为它们到达。当新数据被记录时,它会在时间上被识别。当需要旧数据进行规划时,可以轻松地参考时间,使其非常适合分析。
面向主题:这是数据系统按标题分类组织的能力。例如,银行会将客户、出纳员、收银员等主题进行分类。
非易失性:这是一致性的特点,不允许对存储的过去数据进行更改。这个关键特点允许数据仓库保持系统映像,使公司能够轻松地将特征与过去进行比较。
尽管数据仓库有许多好处,但将在这里介绍其中的一些。
数据存储:数据仓库需要存储公司数据以备将来使用。有了数据仓库,可以方便地保存大量数据以备将来使用。
数据分析:有了一个好的数据仓库,进行数据分析变得容易和高效。可以查询数据。可以获得新的可操作的洞察力,并向管理层报告以做出明智的决策。报告变得非常丰富,增加了盈利机会。
数据质量:访问更有组织和呈现的数据。通过集成和统一数据的能力,消除了通常数据库的挑战。由于可能存在异构性,数据仓库提供了稳定性和一致性。
完整性:一些公司可能希望出于遗留原因或展示透明度而保留他们的数据。数据的可用性成为透明度和尊重的展示。这将维护组织的历史信息。
决策制定:有了数据分析结果的可操作洞察力,可以很好地规划策略。市场趋势可以通过预测看到,管理层可以制定投资计划。其他好处包括方便地访问数据、更好的DBMS和系统性能以及高利润率。
耗时:设置数据仓库的要求可能需要很多时间,公司可能不愿意投资。获得一个好的数据仓库也需要时间,因此许多活动可能需要展开以收集丰富的数据。
昂贵:DBMS拥有和维护成本高昂,更不用说数据仓库了。支付数据库管理员、其他数据工程师和分析师的成本对公司来说可能不可行。
技术知识:系统需要高技能,因为数据灾难对公司来说可能非常糟糕。
本文旨在为数据仓库领域的初创企业和数据相关领域的专业人士提供关于数据仓库概念的概述。这是一个在数据驱动时代具有潜力的领域。本文的一些重要要点包括:
数据仓库是一个集中式的数据存储库,可以查询以获得商业利益。它是一个数据库系统,用于满足决策请求的信息。