Azure 数据工厂(ADF)是一种基于云的数据集成服务,它使组织能够构建、调度和管理数据管道,用于从各种源到各种目的地的数据摄取、准备和转换。ADF 在全球范围内帮助组织通过收集来自电子商务网站、供应链、物流、医疗保健等不同来源的数据,将这些数据转换为可用和可信的资源,并加载到目标存储中。
ADF 的优势
Azure 数据工厂通过提供内置连接器、多种活动选项来执行复制数据、for-each循环、查找等操作,以及验证、发布和监控管道,支持持续集成和持续部署,简化了创建数据管道的过程。ADF 支持数据移动活动、数据转换活动和控制活动等多种类型的活动,以构建复杂的ETL流程和计划的事件驱动工作流,以便后续可以使用各种报告工具进行故事讲述。
ADF 中的活动类型
ADF 支持多种类型的活动,包括数据移动活动、数据转换活动和控制活动。数据移动活动用于在一个数据管道中从一个数据源移动数据到另一个数据源。例如,复制活动可用于将数据从ADLS复制到Azure SQL。数据转换活动用于在数据管道中执行数据转换。数据流活动、Azure函数活动、Databricks笔记本活动等都是数据转换活动的示例。控制活动用于在数据管道中构建条件、顺序或迭代条件逻辑。查找活动、Until活动、ForEach活动等都是控制活动的示例。
ADF 中的注解
注解是附加的信息标签,有助于过滤和搜索数据工厂资源,如数据集、管道、链接服务等。例如,如果作为大型数据处理项目的团队领导,为使用ADF的客户ABC工作,包含10个管道,为了避免数据处理顺序的混淆,可以使用注解为每个管道标记其主要目的:摄取、转换或加载。当监控管道时,这些注解必须可用以执行搜索、分组和过滤。
为什么需要 ADF
Azure 数据工厂是一种基于云的数据集成服务,它使组织能够创建、调度和管理数据管道,用于ETL(提取、转换、加载)过程和数据移动任务。数据科学家可以使用它来移动和转换数据以进行分析。