在大数据时代,快速且经济高效地处理大量数据集成为了企业的关键需求。Google Cloud Dataproc 作为一个理想的工具,能够在不使用时禁用集群,节省时间和金钱。Google Cloud Dataproc 是一个广受欢迎的托管服务,专门用于处理大规模数据集,尤其在大数据项目中表现突出。它允许用户处理、转换和理解海量数据。
企业和组织可以利用 Dataproc 处理来自数百万物联网设备的数据分析销售和生产中的商机。此外,Dataproc 还可用于分析日志文件,以识别安全考虑中的身份差距。Dataproc 支持创建多个托管集群,这些集群可以从3个节点扩展到数百个节点。用户可以在数据处理期间创建按需集群,并在完成特定处理任务后关闭集群。
在使用Google CloudDataproc 时,用户可以根据预算限制、工作负载、性能要求和可用资源来调整集群大小。即使在执行任务或处理过程中,也允许动态扩展。这是托管服务的一次进化,为数据集处理设定了新的基准。因此,在将这些概念应用于组织实践之前,理解其深入概念是非常重要的。本文旨在帮助了解这些概念。
Google Cloud Dataproc 构建在多个开源平台之上,包括 Apache Hadoop、Apache Pig、Apache Spark 和 Apache Hive。这些平台在 Dataproc 中各自扮演不同的角色。
Apache Hadoop
支持跨不同集群分布式处理大数据集的方面。而 Apache Spark
是一个平台,作为大规模和快速数据处理的引擎。Apache Pig
用于分析大数据集,Apache Hive
提供数据存储设施,并帮助管理 SQL 数据库的存储。
Dataproc 支持所有这些开源平台的原生版本。这意味着用户可以控制升级和使用每个平台的最新版本。不仅如此,用户还可以在生态系统中使用开源工具和库。
Google Cloud Dataproc 与 Google Cloud 中的其他相关服务集成。与 Dataproc 集成的一些云服务包括 BigQuery、Bigtable、Google Cloud Storage、Stackdriver Monitoring 和 Stackdriver Logging。组织和企业可以使用 Google Cloud Platform 控制台创建集群、管理它们并运行任务。还可以使用 SDK(软件开发工具包)或 REST API 创建、管理和运行应用程序。
Google CloudDataproc 的定价和计费取决于 Dataproc 集群的大小以及它们运行的时间。集群大小取决于虚拟 CPU 的总数,包括工作节点和主节点。而集群的执行时间是创建和删除集群之间的时间。有一个特定的定价公式用于评估使用 Dataproc 的发票金额。公式如下:
$0.016 * 虚拟 CPU 数量 * 时钟时间
定价公式按小时费率计算金额,但 Dataproc 也可以按秒计费,并且始终按每秒的点击时间计费。因此,最低计费时间是 1 分钟。用户的 Dataproc 使用量以小时的分数指定。
除了每个虚拟机的 Compute Engine 实例价格外,Dataproc 的价格还包括用于完整实现 Google Cloud Dataproc 的额外云资源的费用。可以参阅官方 Google Cloud Dataproc 定价文档,了解更多关于定价的信息。
Dataproc 包括各种工作流模板,允许用户有效地执行各种任务。Dataproc 中的不同工作流模板包括:
1. 托管集群
托管集群工作流模板允许创建一个短期集群来运行按需或设置任务。可以在工作流完成后轻松删除集群。
2. 集群选择器
此工作流模板指定任何现有集群,工作流作业可以在指定用户标签后在这些集群上运行。然后工作流旨在通过匹配所有其他指定标签的集群来运行。如果在此工作流实例中匹配标签的多个集群,则 Dataproc 将选择具有最多可用 YARN 内存的集群来运行工作流任务。完成工作流任务后,不会删除集群。要了解更多关于如何使用集群选择器与不同工作流的信息,请查看此官方文档!
3. 内联
这种类型的工作流模板旨在使用 gcloud 命令实例化工作流。为此,可以使用 YAML 文件或调用 Dataproc 的 Instantiate Inline API。嵌入式工作创建或编辑工作流模板资源!如果需要更多关于使用 Dataproc 内联工作流的想法,那么这里是官方文档,可以为提供必要的知识。
4. 参数化
此工作流模板允许多次执行不同的值。在此过程中,可以通过在此模板中设置参数来避免为多次运行重复修改模板。有了这个参数,可以为每次运行向模板传递不同的值。
使用工作流模板至关重要。工作流模板用于为特定重复任务找到自动化。这些模板将缩小工作流中频繁的任务执行或配置,并自动化该过程。此外,工作流模板支持长期和短期集群。托管集群模板适用于短期集群,而集群选择器模板适用于长期集群。
以下是一些使用案例,以解释Google Cloud的有效性。使用案例定义了云服务在组织和业务中的实施。必须了解特定于服务的使用案例。使用案例包括:
1. 工作流规划
如前一节所述,工作流模板提供了一个灵活且简单的机制,用于管理或执行工作流任务。它们就像用于执行工作流的可重用配置!它们通常有所有要完成的工作的图表。有关任务及其持续时间的信息在这里设置。
除了 Dataproc,还可以使用 Cloud Scheduler 来安排工作流。它允许安排几乎所有的工作,如大数据、批处理或云基础设施。易于使用,具有小时、天或每周的计划。有关 Cloud Scheduler 的更多信息,可以在此处找到文档!
2. 通过 Cloud Dataproc 使用 Apache Hive
当在 Cloud Dataproc 上使用 Apache Hive 时,可以为集群配置带来最大的灵活性。对于特定的 Hive 作业采取定制方法,然后根据工作流需求进行扩展。Hive 是一个构建在 Hadoop 之上的开源数据仓库。它提供了一个名为 HiveQL 的类似 SQL 的查询语言。因此,它用于分析结构化和大型数据集。
必须阅读:什么是 Cloud SQ?!
Dataproc 是 Google Cloud 的一项相当能干的服务,允许运行 Apache Hadoop 和 Spark 作业。Dataproc 的实例可以保持无状态;尽管如此,仍然建议将 Hive 数据存储在云存储中,将 Hive Metastore 存储在 MySQL 之上的 Cloud SQL 中,以将 Apache Hive 集成到 Cloud Dataproc 中。
3. 在正确的实例中使用自定义映像
当使用映像版本来汇集大数据组件和操作系统时,自定义映像就发挥作用了。它们用于配置 Dataproc 集群!映像版本可以用来将操作系统、Google Cloud 连接器和大数据组件合并到一个统一的包中。然后,这个完整的包将作为整体部署到集群中,而不会将其拆分。
因此,如果有某些依赖项,例如打算带到集群的 Python 库,那么应该使用自定义映像。
4. 控制初始化操作
控制初始化操作是 Google Cloud Dataproc 最佳实践之一。这些操作旨在允许使用特定实现来定制 Cloud Dataproc。当创建 Dataproc 集群时,可能会考虑指定可执行文件和脚本的操作。然后,这些脚本将在集群的所有特定节点上运行,一旦它们的设置完成。因此,寻找一个可以从中调节它们以满足特定需求的初始化操作区域是更好的。