Azure数据工厂:从Blob存储到SQL数据库的数据迁移

Azure数据工厂(ADF)是一个基于云的ETL(提取、转换、加载)工具和数据集成服务,它允许创建一个数据驱动的工作流。这个工作流可以编排和自动化数据移动和数据转换。本文将指导如何在Azure中创建Blob存储、SQL数据库和数据工厂,然后构建一个管道,使用复制活动将数据从Blob存储复制到SQL数据库。

创建Azure Blob存储

Azure存储账户提供了高可用性、大规模可扩展性和安全性的存储,用于存储各种数据对象,如Blob、文件、队列和表。Azure存储账户包含用于存储Blob的内容。这种Azure Blob存储用于存储大量的非结构化数据,例如文本、图像、二进制数据、日志文件等。

要创建Azure Blob存储,首先需要创建一个Azure账户并登录。登录Azure账户后,请按照以下步骤操作:

  1. 在Azure首页,点击“创建资源”。
  2. 选择“存储账户”->“创建”。
  3. 在“基本信息”页面,选择订阅,创建或选择现有的资源组,提供存储账户名称,选择区域、性能、冗余并点击“下一步”。选择了LRS以节省成本。
  4. 在“高级”页面,根据需求配置安全性、Blob存储和Azure文件设置,然后点击“下一步”。选择了热访问层,以便可以频繁访问数据。
  5. 在“网络”页面,配置网络连接和网络路由,然后点击“下一步”。
  6. 点击“审查 + 创建”。存储账户创建成功后,将显示其首页。现在,选择“数据存储”->“容器”。
  7. 点击“+ 容器”。将新容器命名为“employee”,并将公共访问级别设置为“容器”。点击“创建”。
  8. 创建一个Blob,启动Excel,复制以下文本并将其保存在名为Emp.csv的文件中。
FirstName,LastName,Department,Salary Rahul,Patel,Sales,90000 Chaitanya,Shah,R&D,95000 Ashna,Jain,HR,93000 Mansi,Garg,Sales,81000 Vipul,Gupta,HR,84000

将Emp.csv文件上传到employee容器。现在,已经成功地将数据上传到Blob存储。接下来,将创建Azure SQL数据库。

创建Azure SQL数据库

Azure SQL数据库是一个大规模可扩展的PaaS数据库引擎。它提供了高可用性、可扩展性、备份和安全性。Azure SQL数据库提供了不同服务层、计算大小和各种资源类型的良好性能。它还提供了高级监控和故障排除功能,以找到实时性能洞察和问题。Azure SQL数据库提供了以下三种部署模型:

  1. 单个数据库:这是最简单的部署方法。在这种方法中,单个数据库部署到Azure VM,并由SQL数据库服务器管理。每个数据库都与其他数据库隔离,并拥有自己保证的内存、存储和计算资源量。
  2. 弹性池:弹性池是一组共享一组资源的单个数据库。这种部署模型成本效益高,因为可以创建一个新的数据库,或将现有的单个数据库移动到资源池中,以最大化资源使用。
  3. 托管实例:托管实例是一个完全托管的数据库实例。它有助于轻松迁移本地SQL数据库。

按照以下步骤创建Azure SQL数据库:

  1. 在Azure首页,点击“创建资源”。
  2. 选择“SQL数据库”->“创建”。
  3. 在“基本信息”页面,选择订阅,创建或选择现有的资源组,提供数据库名称,创建或选择现有的服务器,选择是否使用弹性池,配置计算+存储详细信息,选择冗余并点击“下一步”。选择了LRS以节省成本。
  4. 在“网络”页面,配置网络连接、连接策略、加密连接并点击“下一步”。
  5. 点击“审查 + 创建”。Azure SQL数据库创建成功后,将显示其首页。现在,选择查询编辑器(预览),并通过提供用户名和密码登录到SQL服务器。
  6. 在查询编辑器中粘贴以下SQL查询以创建Employee表。
CREATE TABLE dbo.Employee ( ID int IDENTITY(1,1) NOT NULL, FirstName varchar(50), LastName varchar(50), Department varchar(50), Salary int ) GO CREATE CLUSTERED INDEX IX_emp_ID ON dbo.Employee (ID);

注意:确保在SQL服务器中启用“允许Azure服务和资源访问此服务器”选项。

现在,已经成功在Azure SQL数据库中创建了Employee表。接下来,将创建Azure数据工厂。

在Azure中创建数据工厂

Azure数据工厂(ADF)是一个基于云的ETL(提取、转换、加载)工具和数据集成服务。ADF是一个成本效益高且可扩展的完全托管的无服务器云数据集成工具。

  1. 在Azure首页,点击“创建资源”。
  2. 在市场中搜索数据工厂。选择“创建”->“数据工厂”。
  3. 在“基本信息”页面,选择订阅,创建或选择现有的资源组,提供数据工厂名称,选择区域和数据工厂版本,然后点击“下一步”。
  4. 在“Git配置”页面,选择稍后配置Git或输入与Git仓库相关的所有详细信息,然后点击“下一步”。
  5. 在“网络”页面,根据需求填写管理虚拟网络和自托管集成连接到Azure数据工厂的选项,然后点击“下一步”。
  6. 点击“审查 + 创建”。数据工厂创建成功后,将显示数据工厂首页。点击“在Azure数据工厂工作室中打开”。
  1. 在活动工具箱中,搜索复制数据活动并将其拖到管道设计器表面。将其重命名为“CopyFromBlobToSQL”。
  2. 在“源”选项卡中,选择“+新建”以创建源数据集。搜索Azure Blob Storage。选择“继续”->“数据格式”->“分隔文本”->“继续”。输入名称,选择复选框作为标题行,然后点击“+新建”以创建新的链接服务。
  3. 在新的链接服务中,提供服务名称,选择认证类型、Azure订阅和存储账户名称。点击“创建”。
  4. 创建链接服务后,它将返回到“设置属性”页面。现在,在文件路径中选择“Emp.csv”路径。点击“确定”。在“源”选项卡中,确保选择了“SourceBlobStorage”。要预览数据,请选择“预览数据”选项。
  5. 在“接收器”选项卡中,选择“+新建”以创建接收器数据集。搜索Azure SQL数据库。选择“继续”。输入名称,然后点击“+新建”以创建新的链接服务。
  6. 在新的链接服务中,提供服务名称,选择Azure订阅、服务器名称、数据库名称、认证类型和认证详细信息。点击“创建”。
  7. 创建链接服务后,它将返回到“设置属性”页面。现在,在表名称中选择“dbo.Employee”。点击“确定”。
  8. 点击“验证全部”以验证管道。验证成功后,点击“发布全部”以发布管道。
  9. 通过点击“触发现在”手动运行管道。
  10. 通过访问Azure数据工厂工作室中的“监视”部分,验证“CopyPipeline”是否成功运行。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485