在当今的大数据时代,企业需要有效地管理和分析来自不同来源的大量数据。AWS Glue作为一种数据集成工具,通过提取、转换和加载(ETL)过程,帮助工程师为其他数据消费者准备数据。这种托管服务为企业提供了一种简单且成本效益高的方法,用于分类和管理企业中的大数据。它提供了一个数据集成工具,该工具可以格式化来自不同数据源的信息,并将其组织在一个中央仓库中,以便用于指导业务决策。
AWS Glue利用ETL作业从Amazon Web Services(AWS)提供的其他云服务中提取数据,并将其整合到数据湖和数据仓库中。它使用应用程序编程接口(API)来转换提取的数据集以进行集成,并帮助用户监控作业。用户可以安排ETL作业或选择事件来触发作业。一旦启动,Glue提取数据,根据Glue自动生成的代码进行转换,并将数据加载到Amazon S3或Amazon Redshift中。然后,Glue将作业的元数据写入嵌入式AWS Glue数据目录中。
该服务可以自动在S3中的数据湖、Amazon Redshift中的数据仓库以及其他属于Amazon关系数据库服务的数据库中找到企业结构化或非结构化数据。Glue还支持在Amazon虚拟私有云(Amazon Virtual Private Cloud)中的Amazon弹性计算云(Amazon EC2)实例上运行的MySQL、Oracle、Microsoft SQL Server和PostgreSQL数据库。
然后,该服务在数据目录中对数据进行分析,这是一个包含所有数据资产的元数据存储库,包括表定义、位置和其他属性等详细信息。团队还可以使用Glue数据目录作为Amazon Elastic MapReduce应用程序的Apache Hive Metastore的替代品。
要将元数据加载到数据目录中,该服务使用Glue爬虫扫描原始数据存储并提取模式和其他属性。IT专业人员可以根据需要自定义爬虫。
Glue的基本属性如下:
使用AWS Glue的优势包括:
AWS Glue的缺点包括:
1. 提高速度和降低成本
金融是一家专门从事与产品相关的金融服务的技术公司。这些产品在东南亚的金融服务公司中非常有用。其总部位于印度尼西亚雅加达。她想要提升和转变日常的ETL作业。该公司选择了许多其他解决方案,但找不到理想的解决方案来满足需求。最终,他们决定使用AWS Glue,这得到了回报,因为团队可以轻松地加载数据、运行流程,并将其转换为Redshift上的下一个流程。它还允许公司加快流程并节省成本。这种结合不仅被证明更快、更有效,而且比经过验证的替代方案便宜得多。对于像金融这样的初创公司来说,节省成本是决定性因素之一。
2. 构建数据智能和分析平台
Burt公司是一家专门从事数据产品的初创数据公司,旨在转变新的在线媒体格局。它在纽约、柏林和瑞典哥德堡设有办事处。许多主要的在线媒体发布商使用Burt的数据智能和分析平台来了解和优化他们的在线营销策略。该平台必须具备有效的数据收集、处理、分析和决策能力以满足这些要求。因此,该公司决定使用AWS Glue、Amazon Redshift和Amazon Athena来满足这些要求。Burt通过集成Amazon Athena和AWS Glue,转变了他的数据分析和智能平台。结果,Burt能够提供满足客户要求的解决方案。
3. 优化网络安全环境
世界上最知名的品牌之一不需要介绍。它专门从事技术领域,特别是工业生产。西门子是一家总部位于德国慕尼黑的跨国公司。她想要用一个智能系统来对抗网络威胁。该系统预计会准备数据、分析数据并使用机器学习进行预测。该公司决定求助于Amazon Web Services以寻求解决方案。AWS专家建议使用Amazon Sage Maker、AWS Glue和AWS Lambda。AWS Glue在这一过程中发挥了关键作用。它是一个提取数据并帮助数据科学家轻松分类数据的工具。
数据编目后,即可搜索并准备好进行ETL作业。AWS Glue包括一个ETL脚本推荐系统,用于生成Python和Spark代码(PySpark)以及一个用于运行作业的ETL库。开发人员可以通过自定义Glue库或使用AWS Glue控制台脚本编辑器中的PySpark代码编写ETL代码。
开发人员还可以导入自定义代码或PySpark库。此外,开发人员可以将现有ETL作业的代码上传到S3存储桶,然后创建一个新的Glue作业来处理代码。
AWS Glue作业可以按计划运行。开发人员可以按至少五分钟的间隔安排ETL作业。AWS Glue无法处理流数据。