大数据与机器学习工具概览

在深入探讨机器学习和人工智能领域之前,需要了解如何为每个阶段配备合适的工具和语言。但在那之前,团队在开始探索数据和构建模型之前,应该定义并构建一个数据引擎。需要问自己:数据在哪里生成?数据有多大?需要哪些工具来收集和存储数据?等等。

如果更倾向于通过音视频格式学习概念,有视频解释本文的全部内容。如果不感兴趣,可以继续阅读。本文将重点讨论数据存储方面。这里需要指出的是,不需要记住将看到的工具,但应该了解市面上有哪些工具可以回答之前提出的问题。

数据科学谱系

需要了解数据的特性,可以将这些特性分为三个V:体量(Volume)、多样性(Variety)和速度(Velocity)。将更详细地了解这些特性,并介绍一些常用的工具。

体量指的是手头数据的规模和数量。回想一下,今天看到的世界中90%的数据是在过去的几年中生成的。但正在降低存储和计算成本,因此收集和存储大量数据变得容易得多。相信都听说过“大数据”这个术语。体量定义了数据是否符合“大数据”的标准。当有相对较小的数据湖时,比如1GB、5GB或10GB,实际上不需要大数据工具来处理这些数据。传统的工具通常可以很好地处理这些数据量。

当数据大小显著增加到25GB或50GB时,这是应该开始考虑大数据工具的时候。但当数据大小超过这个点时,肯定需要实施大数据解决方案。传统的工具无法处理500GB或1TB的数据,无论多么希望它们能够处理。

那么,有哪些其他工具可以处理这些不同的数据大小呢?让看看它们。

Microsoft Excel是业界最受欢迎和公认的工具之一,用于处理小型数据集。但它每个工作表支持的最大行数是100万行。而且一个工作表一次只能处理高达16,380列。当数据量很大时,这显然是不够的。

Microsoft Access是另一个微软工具,通常用于数据存储。同样,可以存储的小型数据库高达2GB,但超过这个大小就不可能了。

SQL是一个数据库管理系统,自20世纪70年代以来一直存在。它曾是几十年来的主要数据库解决方案。尽管它仍然流行,但其他解决方案已经出现。SQL的主要缺点是,随着数据库的增长,它很难扩展。

一定听说过Hadoop。它是一个开源的分布式处理框架,用于管理大数据的数据处理和存储。很可能在从头开始构建机器学习项目时遇到Hadoop。

Apache Hive是建立在Hadoop之上的数据仓库。Hive提供了一个类似SQL的接口来查询数据,存储各种数据库在文件系统中,这些数据库与Hadoop集成。

第二个V是多样性,指的是数据的不同类型。这包括结构化和非结构化数据。在结构化数据的范畴下,可以将诸如表格数据、员工表格、支付表格、贷款申请表格等进行分类。

以这些格式存储的数据不遵循趋势或模式。它是庞大且多样化的,可能很难处理。那么市场上有哪些工具可以处理和存储这些不同类型的数据呢?两个最常见的数据库是SQL和NO-SQL(不仅仅是SQL)。

SQL是市场上的主导者,NO-SQL出现之前已经存在了很多年。一些SQL数据库的例子包括MySQLOracle SQL,而NO-SQL包括流行的数据库如MongoDBCassandra等。这些NO-SQL数据库因其能够扩展和处理动态数据而受到巨大的采用,这是SQL难以做到的。

第三个也是最后一个V是速度。这包括数据的捕获速度。这包括实时和非实时捕获。但在本文中,将更多地关注实时数据。这包括传感器数据,这些数据由自动驾驶汽车和CCTV摄像头等捕获。自动驾驶汽车在路上行驶时需要快速处理数据。当然,CCTV摄像头通常用于安全目的,需要全天候捕获数据点。

股票阅读是另一个实时数据的例子。实际上,知道吗,在纽约证券交易所的每次交易会话期间,都会生成超过1TB的交易信息?这就是在这里谈论的实时数据的大小,每次交易会话1TB。

当然,检测欺诈和信用卡交易也属于实时数据处理。社交媒体帖子和推文是解释实时数据是什么样子的典型例子。事实上,不到两天就有10亿条推文被发送出去。这正是数据存储在当今世界变得如此重要的地方。

现在让看看一些用于捕获实时数据进行处理的常用工具。

Kafka是Apache的一个开源工具,用于构建实时数据管道。Kafka的一些优点是:它是容错的、非常快,并且被许多组织用于生产。

Apache Storm可以与几乎所有的编程语言一起使用。Storm每秒可以处理超过100万个元组,并且具有很高的可扩展性。对于高数据速度,这是一个值得考虑的好选择。

亚马逊的Kinesis与Kafka类似,但请注意,Kafka是免费的,而Kinesis需要订阅费用。然而,Kinesis作为一个现成的解决方案,这就是它成为组织强大选择的原因。

Flink是Apache提供的另一个用于处理实时数据的开源工具。高性能、容错和高效的内存管理是Flink的一些优点。

以上就是关于数据类型和与之相关的一些常用工具的介绍。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485