如果对Spark的世界感兴趣,可以阅读这篇文章,或者观看这个视频了解更多Spark为商业世界带来的价值。对于喜欢阅读的人来说,可以跳过视频,查看这个推荐的博客。
作为R语言用户,将重点放在SparkR上。R是数据科学中最广泛使用的编程语言之一,以其简单的语法和运行复杂算法的能力而闻名,可能是初学者的首选语言。然而,R的一个限制是其数据处理能力仅限于单个节点上的内存,这限制了可以用R处理的数据量。这就是为什么R在尝试处理大型数据集时会内存不足。为了克服这个内存问题,可以使用SparkR。
Apache Spark为包括Python、Scala、Java、SQL在内的多种语言提供了API,这些API作为连接这些工具与Spark的桥梁。对于SparkR的详细视图,这个视频是必看的。
如果仍然在阅读,假设这个新技术激发了好奇心,将决心完成这个旅程。那么,让继续设置机器。要安装SparkR,首先需要在系统中安装Spark,因为它在后端运行。以下资源将帮助在各自的操作系统上安装:
# Windows, Ubuntu, Mac OS安装指南
成功安装后,只需几个额外的步骤就可以在安装Spark后启动SparkR。以下资源将帮助在本地启动SparkR:
# Windows, Ubuntu, Mac OS启动SparkR指南
从R开始:尽管假设对R感兴趣,如果不熟悉R,这个DataCamp的课程将帮助开始学习R。
# 安装swirl包并完成所有练习
数据库处理与SQL:SQL在SparkR中广泛使用,以便使用简单的命令轻松实现功能。这有助于减少必须编写的代码行数,并提高操作速度。如果不熟悉SQL,应该完成Codecademy的这个课程。
# SQL练习1和练习2
一旦基础知识就绪,是时候学习如何使用SparkR和SQL工作了。SparkR使能够使用R和SQL的组合进行许多数据探索操作。最常见的包括select、collect、groupBy、summarize、subset和arrange。可以通过这篇文章学习这些操作。
# 完成AmpBerkley的练习
# 构建线性回归模型和逻辑回归模型的链接
# Windows, Ubuntu, Mac OS安装Hive指南
# 快速了解SparkR的官方文档