Azure数据工厂：从Blob存储到SQL数据库的数据迁移

Azure数据工厂（ADF）是一个基于云的ETL（提取、转换、加载）工具和数据集成服务，它允许创建一个数据驱动的工作流。这个工作流可以编排和自动化数据移动和数据转换。本文将指导如何在Azure中创建Blob存储、SQL数据库和数据工厂，然后构建一个管道，使用复制活动将数据从Blob存储复制到SQL数据库。

创建Azure Blob存储

Azure存储账户提供了高可用性、大规模可扩展性和安全性的存储，用于存储各种数据对象，如Blob、文件、队列和表。Azure存储账户包含用于存储Blob的内容。这种Azure Blob存储用于存储大量的非结构化数据，例如文本、图像、二进制数据、日志文件等。

要创建Azure Blob存储，首先需要创建一个Azure账户并登录。登录Azure账户后，请按照以下步骤操作：

在Azure首页，点击“创建资源”。
选择“存储账户”->“创建”。
在“基本信息”页面，选择订阅，创建或选择现有的资源组，提供存储账户名称，选择区域、性能、冗余并点击“下一步”。选择了LRS以节省成本。
在“高级”页面，根据需求配置安全性、Blob存储和Azure文件设置，然后点击“下一步”。选择了热访问层，以便可以频繁访问数据。
在“网络”页面，配置网络连接和网络路由，然后点击“下一步”。
点击“审查 + 创建”。存储账户创建成功后，将显示其首页。现在，选择“数据存储”->“容器”。
点击“+ 容器”。将新容器命名为“employee”，并将公共访问级别设置为“容器”。点击“创建”。
创建一个Blob，启动Excel，复制以下文本并将其保存在名为Emp.csv的文件中。


            FirstName,LastName,Department,Salary
            Rahul,Patel,Sales,90000
            Chaitanya,Shah,R&D,95000
            Ashna,Jain,HR,93000
            Mansi,Garg,Sales,81000
            Vipul,Gupta,HR,84000

将Emp.csv文件上传到employee容器。现在，已经成功地将数据上传到Blob存储。接下来，将创建Azure SQL数据库。

创建Azure SQL数据库

Azure SQL数据库是一个大规模可扩展的PaaS数据库引擎。它提供了高可用性、可扩展性、备份和安全性。Azure SQL数据库提供了不同服务层、计算大小和各种资源类型的良好性能。它还提供了高级监控和故障排除功能，以找到实时性能洞察和问题。Azure SQL数据库提供了以下三种部署模型：

单个数据库：这是最简单的部署方法。在这种方法中，单个数据库部署到Azure VM，并由SQL数据库服务器管理。每个数据库都与其他数据库隔离，并拥有自己保证的内存、存储和计算资源量。
弹性池：弹性池是一组共享一组资源的单个数据库。这种部署模型成本效益高，因为可以创建一个新的数据库，或将现有的单个数据库移动到资源池中，以最大化资源使用。
托管实例：托管实例是一个完全托管的数据库实例。它有助于轻松迁移本地SQL数据库。

按照以下步骤创建Azure SQL数据库：

在Azure首页，点击“创建资源”。
选择“SQL数据库”->“创建”。
在“基本信息”页面，选择订阅，创建或选择现有的资源组，提供数据库名称，创建或选择现有的服务器，选择是否使用弹性池，配置计算+存储详细信息，选择冗余并点击“下一步”。选择了LRS以节省成本。
在“网络”页面，配置网络连接、连接策略、加密连接并点击“下一步”。
点击“审查 + 创建”。Azure SQL数据库创建成功后，将显示其首页。现在，选择查询编辑器（预览），并通过提供用户名和密码登录到SQL服务器。
在查询编辑器中粘贴以下SQL查询以创建Employee表。


            CREATE TABLE dbo.Employee (
                ID int IDENTITY(1,1) NOT NULL,
                FirstName varchar(50),
                LastName varchar(50),
                Department varchar(50),
                Salary int
            )
            GO
            CREATE CLUSTERED INDEX IX_emp_ID ON dbo.Employee (ID);

注意：确保在SQL服务器中启用“允许Azure服务和资源访问此服务器”选项。

现在，已经成功在Azure SQL数据库中创建了Employee表。接下来，将创建Azure数据工厂。

在Azure中创建数据工厂

Azure数据工厂（ADF）是一个基于云的ETL（提取、转换、加载）工具和数据集成服务。ADF是一个成本效益高且可扩展的完全托管的无服务器云数据集成工具。

在Azure首页，点击“创建资源”。
在市场中搜索数据工厂。选择“创建”->“数据工厂”。
在“基本信息”页面，选择订阅，创建或选择现有的资源组，提供数据工厂名称，选择区域和数据工厂版本，然后点击“下一步”。
在“Git配置”页面，选择稍后配置Git或输入与Git仓库相关的所有详细信息，然后点击“下一步”。
在“网络”页面，根据需求填写管理虚拟网络和自托管集成连接到Azure数据工厂的选项，然后点击“下一步”。
点击“审查 + 创建”。数据工厂创建成功后，将显示数据工厂首页。点击“在Azure数据工厂工作室中打开”。

在活动工具箱中，搜索复制数据活动并将其拖到管道设计器表面。将其重命名为“CopyFromBlobToSQL”。
在“源”选项卡中，选择“+新建”以创建源数据集。搜索Azure Blob Storage。选择“继续”->“数据格式”->“分隔文本”->“继续”。输入名称，选择复选框作为标题行，然后点击“+新建”以创建新的链接服务。
在新的链接服务中，提供服务名称，选择认证类型、Azure订阅和存储账户名称。点击“创建”。
创建链接服务后，它将返回到“设置属性”页面。现在，在文件路径中选择“Emp.csv”路径。点击“确定”。在“源”选项卡中，确保选择了“SourceBlobStorage”。要预览数据，请选择“预览数据”选项。
在“接收器”选项卡中，选择“+新建”以创建接收器数据集。搜索Azure SQL数据库。选择“继续”。输入名称，然后点击“+新建”以创建新的链接服务。
在新的链接服务中，提供服务名称，选择Azure订阅、服务器名称、数据库名称、认证类型和认证详细信息。点击“创建”。
创建链接服务后，它将返回到“设置属性”页面。现在，在表名称中选择“dbo.Employee”。点击“确定”。
点击“验证全部”以验证管道。验证成功后，点击“发布全部”以发布管道。
通过点击“触发现在”手动运行管道。
通过访问Azure数据工厂工作室中的“监视”部分，验证“CopyPipeline”是否成功运行。

无监督学习算法：聚类技术在书籍推荐系统中的应用

本文探讨了无监督学习中的聚类技术，特别是K-Means和层次聚类算法在构建书籍推荐系统中的应用和比较。

大数据基础与Hadoop框架入门

本文介绍了大数据的基本概念、应用场景以及Hadoop框架的基础知识，适合初学者快速了解大数据领域。

Azure数据工厂：从Blob存储到SQL数据库的数据迁移

创建Azure Blob存储

创建Azure SQL数据库

在Azure中创建数据工厂

无监督学习算法：聚类技术在书籍推荐系统中的应用

大数据基础与Hadoop框架入门

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

Azure数据工厂：从Blob存储到SQL数据库的数据迁移

创建Azure Blob存储

创建Azure SQL数据库

在Azure中创建数据工厂

无监督学习算法：聚类技术在书籍推荐系统中的应用

大数据基础与Hadoop框架入门

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485