数据仓库与企业数据管理

数据仓库(DW)是一个集中存储企业信息系统和来自操作系统及其他数据源的数据的平台。它旨在通过数据收集、整合、分析和研究来支持决策制定。数据仓库在现代商业智能中扮演着重要角色,特别是在分析特定领域如“销售”时。数据仓库架构在20世纪80年代发展起来,帮助将操作系统中的数据转化为决策支持系统。数据仓库通常是公司主机服务器的一部分。

数据存储技术的演变

在20世纪50年代,打孔卡片是存储计算机生成数据的第一种解决方案。打孔卡片在美国政府和企业中非常重要,警告“请勿折叠、钻孔或损坏”最初就来自打孔标签。打孔卡片一直使用到20世纪80年代,至今仍用于记录选票和标准化测试的结果。

“磁存储”从20世纪60年代开始逐渐取代打孔卡片。磁盘存储作为数据存储的下一个进化步骤出现。磁盘存储(硬盘和软盘)在1964年变得流行,它允许直接访问数据,显著提高了笨拙的磁带存储。

IBM是磁盘存储早期发展的主要推动者。他们发明了软盘驱动器和硬盘驱动器,并且对支持其产品的多项改进也有所贡献。IBM从1956年开始开发和制造磁盘存储设备。2003年,IBM将其“硬盘驱动器”业务出售给了日立。

数据库管理系统

磁盘存储之后,很快出现了一种名为数据库管理系统(DBMS)的软件。1966年,IBM推出了其DBMS,当时称为信息管理系统。DBMS软件旨在管理“磁盘上的存储”,包括以下功能:

  • 确定数据的正确位置
  • 解决多个数据单元映射到同一位置时的冲突
  • 允许数据删除
  • 在存储数据不适合特定有限的物理位置时找到位置
  • 快速数据检索(这是最大的优势)

在线应用程序

在20世纪60年代末和70年代初,商业在线应用程序在磁盘存储和DBMS软件流行后不久出现。一旦发现可以直接访问数据,信息就开始在计算机之间共享。有许多商业应用程序可以用于在线处理,例如:

  • 索赔处理
  • 银行出纳处理
  • 自动取款机(ATM)处理
  • 航班预订处理
  • 零售销售点处理
  • 生产控制处理

尽管有所改进,但找到特定数据可能仍然困难且不一定可靠。找到的数据可能基于“旧”信息。此时,公司产生的数据量如此之大,以至于人们无法信任数据的准确性。

4GL技术与个人电脑

个人电脑技术允许任何人将他们的电脑带到工作场所,并在方便时进行处理。这导致了个人电脑软件的发展,以及个人电脑所有者可以在自己的电脑上存储他的“个人”数据的认识。随着工作文化的这种变化,人们认为不再需要集中的IT部门。与此同时,4GL技术被开发和推广。4GL技术(20世纪70年代至90年代开发)基于这样一个理念:编程和系统开发应该简单,任何人都应该能够做到。这项新技术也促进了集中式IT部门的解体。

4GL技术和个人电脑解放了最终用户,使他们能够更有效地控制计算机系统,并快速高效地搜索信息。释放最终用户并允许他们访问数据的初衷是非常好的一步。4GL和个人电脑迅速在企业环境中流行起来。但在途中发生了一些意想不到的事情。关系数据库在20世纪80年代变得非常流行。它比其前身更加用户友好。关系数据库管理系统(RDBMS)使用结构化查询语言(SQL)。在20世纪80年代末,许多企业从大型机转向了客户端-服务器。员工现在获得了个人电脑,办公应用程序(Excel、Microsoft Word和Access)开始受到青睐。

数据仓库的需求

在20世纪90年代,发生了巨大的文化和技术变革。互联网的普及增长。由于新的自由贸易协定、电子化、全球化和网络化,竞争加剧。这种新现实需要更大的商业智能,导致需要真正的数据仓库。

到了2000年,许多企业发现,随着数据库和应用系统的激增,他们的系统整合不良,数据不一致。他们发现自己接收和存储了大量的碎片化数据。不知何故,数据需要整合,以提供在竞争激烈、不断变化的全球经济中做出决策所需的关键“商业智能”。企业开发了数据仓库,以整合他们从各种数据库接收的数据,并帮助他们做出战略决策。

NoSQL的使用

随着数据仓库的出现,大数据的积累开始演变。这种积累需要计算机、智能手机、互联网和物联网提供数据。信用卡和社交媒体也发挥了作用。

数据孤岛可能是大型组织中的自然现象,每个部门都有不同的目标、责任和优先事项。数据孤岛是单个部门控制的固定数据存储库,由于隐私和安全原因,与其他部门隔离。数据孤岛也可能发生在部门竞争而不是合作实现共同目标时。它们通常被视为协作和有效商业实践的障碍。

数据集市是为特定社区或工作组服务的数据存储区域。它们是固定数据的存储库,并且故意控制在组织内单个部门之下。

数据湖对数据的输入结构比数据仓库更灵活。数据被组织以匹配湖数据库的模式,并使用更流动的存储方法。数据湖只在数据移动到应用层时才对数据添加结构。数据湖保留了原始数据结构,并且可以作为理论上可以无限扩展的大数据存储和检索系统。

数据沼泽可能源于设计不当或忽视的数据湖。数据沼泽描述了存储数据的适当文档失败的情况。这种情况使得分析和有效使用数据变得困难。尽管原始数据可能仍然存在,但没有适当的元数据来恢复上下文,数据沼泽无法恢复它。

数据立方体是一个在三个或更多维度的矩阵中存储数据的软件。数据中的转换被表示为表格和处理信息的数组。在表格将数据字符串的行与数据类型的列匹配之后,数据立方体从单一数据源或多个数据源交叉引用表格,增加了每个数据点的细节。这种安排使研究人员能够比其他技术更深入地洞察数据。

数据仓库(DW)存储来自操作系统和各种其他数据源的企业信息和数据。数据仓库旨在通过数据收集、整合、分析和研究来支持决策制定。它们可以在分析特定领域,如“销售”时使用,并且是现代商业智能的重要组成部分。数据仓库架构在20世纪80年代发展起来,帮助将操作系统中的数据转化为决策支持系统。数据仓库通常是公司主机服务器的一部分。

它比其前身更用户友好。关系数据库管理系统(RDBMS)使用结构化查询语言(SQL)。在20世纪80年代末,许多企业从大型机转向了客户端-服务器。

数据被组织以匹配湖数据库的模式,并使用更流动的存储方法。数据湖只在数据移动到应用层时才对数据添加结构。

IBM是磁盘存储早期发展的主要推动者。他们发明了软盘驱动器和硬盘驱动器,并且对支持其产品的多项改进也有所贡献。IBM从1956年开始开发和制造磁盘存储设备。2003年,IBM将其“硬盘驱动器”业务出售给了日立。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485