Azure Data Lake Storage Gen2(ADLS Gen2)是基于Azure Storage构建的,它结合了ADLS Gen1和Azure Blob Storage的能力。ADLS Gen2能够存储大量的结构化、半结构化和非结构化数据,保持原始文件格式不变。例如,它可以存储文本文件、CSV文件、JSON文件、XML文件、图像、视频等。文件上传完成后,可以使用Databricks或Hadoop等技术,根据业务需求处理和分析数据。
ADLS Gen2使Azure Storage成为构建Azure云上企业知识湖的灵感来源。它旨在服务多PB级数据,同时保持高吞吐量,ADLS Gen2帮助轻松管理大量数据。ADLS Gen2的一个基本部分是向Blob存储添加了层次化命名空间。层次化命名空间将对象/文件组织成目录层次结构,以实现高效的数据访问。
前提条件:至少需要一个Azure免费层订阅。将使用免费层订阅执行以下步骤。
这是Azure云的主页。
2.1 要创建Azure存储账户,首先点击Azure服务中的“创建资源”图标来创建服务。
2.2 输入“存储账户”并选择唯一的选项“存储账户”来创建此服务。
2.3 现在,点击“创建”按钮。
2.4 在“创建存储账户”页面的“基本信息”选项卡中提供以下信息:
- 项目详情部分
- 订阅:从下拉菜单中选择适当的“订阅”。
- 资源组:从“资源组”的下拉菜单中选择“RG-Storage”。
- 实例详情部分
- 存储账户名称:在提供的输入框中输入名称“blogdemostg”。
- 区域:从“区域”的下拉菜单中选择默认选项“East US”。如果需要,可以根据选择更改它。
- 性能:选择“标准:推荐大多数场景(通用v2账户)”选项。
- 冗余:在下拉菜单中选择“本地冗余存储(LRS)”选项。
2.5 现在,在高级选项中转到Data Lake Storage Gen2部分,在这里勾选“启用层次化命名空间”。
2.6 最后,点击“审查+创建”按钮。
2.7 一旦显示“验证通过”的消息,点击“创建”按钮。
现在将被重定向到存储账户部署页面。在这里,点击“转到资源”按钮。
最后,服务启动了,可以看到在创建ADLS Gen2存储账户期间定义的所有凭据。
它将帮助创建容器,并将数据文件和文件夹从本地系统上传到在Azure云中创建的存储账户。在本地安装它,可以从存储账户页面下载它,或者点击此处。
现在打开MicrosoftAzureStorage Explorer并将其连接到Azure账户。要连接,只需点击菜单选项左侧提供的“插头”符号,然后点击“订阅”部分,然后它将重定向连接Microsoft账户。填写详细信息,azure账户将与存储资源管理器连接。现在可以看到存储服务名称在存储账户下拉菜单中。
已成功创建了第一个ADLS Gen2存储账户。现在,将使用Microsoft Azure Storage Explorer将数据上传到其中。要上传数据,将创建一个名为“raw”的文件夹。在这个文件夹中,将上传数据。让开始吧…
步骤1:要创建容器或文件夹,右键单击存储账户中的“Blob Containers”。现在会出现一个弹出窗口,在这里右键单击“创建Blob容器”。
步骤2:在提供的框中输入文件夹名称“raw”。
步骤3:点击raw文件夹,将看到不同的选项,点击“上传”选项。在这里将获得2个选项,无论想上传文件还是文件夹。将上传文件到存储文件夹。
步骤4:点击上传文件选项,文件上传提示将打开,在那里可以选择要上传的文件。选择后点击“上传按钮”,文件将上传到raw容器中。
正在上传名为“inshort_news_data_7.csv”的抓取数据“CSV文件”到存储。可以查看下面的图片。
步骤5:现在文件已上传到Azure存储中。可以检查“活动”部分,它将显示任务状态,以及任务是否成功或失败。