在当今这个数据量爆炸的时代,数据处理和存储变得尤为重要。当谈论到大数据存储时,可能会遇到“数据湖”和“数据仓库”这两个术语。这两种是存储大数据的两种最流行选项。作为数据行业的老兵,可以证实数据仓库和数据湖是两个完全不同的概念,但许多人却常常将它们混为一谈。对于数据工程师来说,理解数据湖和数据仓库以及它们之间的区别至关重要,因为这将帮助了解数据湖是否适合组织。
数据湖是一个能够存储大量数据的公共存储库,它不需要维护数据的特定结构。可以存储目的尚未确定的数据。其用途包括构建仪表板、机器学习或实时分析。当从多个来源存储大量数据时,重要的是数据应该以可用的形式存在。它应该有一些规则和规定,以维护数据安全性和可访问性。否则,只有设计数据湖的团队知道如何访问特定类型的数据。没有适当的信息,区分想要的数据和检索到的数据将非常困难。因此,重要的是数据湖不要变成数据沼泽。
数据仓库是另一种数据库,它只存储预处理过的数据。这里的数据结构是明确定义的,针对SQL查询进行了优化,并已准备好用于分析目的。数据仓库的其他名称包括商业智能解决方案和决策支持系统。
数据湖和数据仓库在数据存储和质量、目的、用户和定价方面存在以下区别:
数据湖
捕获所有类型的数据,如结构化和非结构化数据,以原始格式存储。它包含可能对当前用例有用以及可能在未来使用的数据
。
数据仓库
只包含已经预处理并准备好供团队使用的高质量数据。
数据湖
的用途不固定。有时组织会考虑未来的用例。其一般用途包括数据发现、用户画像和机器学习。
数据仓库
的数据已经为某些用例设计好了。其用途包括商业智能、可视化和批量报告。
数据科学家使用数据湖
来发现可以帮助业务的模式和有用信息。
商业分析师使用数据仓库
来创建可视化和报告。
数据湖
的存储成本相对较低,因为不太关注以结构化格式存储。