Azure Data Lake Storage Gen2 指南

Azure Data Lake Storage Gen2(ADLS Gen2)是基于Azure Storage构建的,它结合了ADLS Gen1和Azure Blob Storage的能力。ADLS Gen2能够存储大量的结构化、半结构化和非结构化数据,保持原始文件格式不变。例如,它可以存储文本文件、CSV文件、JSON文件、XML文件、图像、视频等。文件上传完成后,可以使用Databricks或Hadoop等技术,根据业务需求处理和分析数据。

ADLS Gen2使Azure Storage成为构建Azure云上企业知识湖的灵感来源。它旨在服务多PB级数据,同时保持高吞吐量,ADLS Gen2帮助轻松管理大量数据。ADLS Gen2的一个基本部分是向Blob存储添加了层次化命名空间。层次化命名空间将对象/文件组织成目录层次结构,以实现高效的数据访问。

创建ADLS Gen2存储账户的步骤

前提条件:至少需要一个Azure免费层订阅。将使用免费层订阅执行以下步骤。

这是Azure云的主页。

2.1 要创建Azure存储账户,首先点击Azure服务中的“创建资源”图标来创建服务。

2.2 输入“存储账户”并选择唯一的选项“存储账户”来创建此服务。

2.3 现在,点击“创建”按钮。

2.4 在“创建存储账户”页面的“基本信息”选项卡中提供以下信息:

- 项目详情部分 - 订阅:从下拉菜单中选择适当的“订阅”。 - 资源组:从“资源组”的下拉菜单中选择“RG-Storage”。 - 实例详情部分 - 存储账户名称:在提供的输入框中输入名称“blogdemostg”。 - 区域:从“区域”的下拉菜单中选择默认选项“East US”。如果需要,可以根据选择更改它。 - 性能:选择“标准:推荐大多数场景(通用v2账户)”选项。 - 冗余:在下拉菜单中选择“本地冗余存储(LRS)”选项。

2.5 现在,在高级选项中转到Data Lake Storage Gen2部分,在这里勾选“启用层次化命名空间”。

2.6 最后,点击“审查+创建”按钮。

2.7 一旦显示“验证通过”的消息,点击“创建”按钮。

现在将被重定向到存储账户部署页面。在这里,点击“转到资源”按钮。

最后,服务启动了,可以看到在创建ADLS Gen2存储账户期间定义的所有凭据。

它将帮助创建容器,并将数据文件和文件夹从本地系统上传到在Azure云中创建的存储账户。在本地安装它,可以从存储账户页面下载它,或者点击此处。

现在打开MicrosoftAzureStorage Explorer并将其连接到Azure账户。要连接,只需点击菜单选项左侧提供的“插头”符号,然后点击“订阅”部分,然后它将重定向连接Microsoft账户。填写详细信息,azure账户将与存储资源管理器连接。现在可以看到存储服务名称在存储账户下拉菜单中。

在ADLS Gen2中上传数据

已成功创建了第一个ADLS Gen2存储账户。现在,将使用Microsoft Azure Storage Explorer将数据上传到其中。要上传数据,将创建一个名为“raw”的文件夹。在这个文件夹中,将上传数据。让开始吧…

步骤1:要创建容器或文件夹,右键单击存储账户中的“Blob Containers”。现在会出现一个弹出窗口,在这里右键单击“创建Blob容器”。

步骤2:在提供的框中输入文件夹名称“raw”。

步骤3:点击raw文件夹,将看到不同的选项,点击“上传”选项。在这里将获得2个选项,无论想上传文件还是文件夹。将上传文件到存储文件夹。

步骤4:点击上传文件选项,文件上传提示将打开,在那里可以选择要上传的文件。选择后点击“上传按钮”,文件将上传到raw容器中。

正在上传名为“inshort_news_data_7.csv”的抓取数据“CSV文件”到存储。可以查看下面的图片。

步骤5:现在文件已上传到Azure存储中。可以检查“活动”部分,它将显示任务状态,以及任务是否成功或失败。

  • 关于ADLS Gen2存储服务的详细信息。
  • 在Azure云中创建第一个存储账户的步骤。
  • 将Azure账户与Microsoft Azure Storage Explorer连接。
  • 使用Microsoft Azure Storage Explorer在ADLS Gen2存储账户中创建容器。
  • 从本地系统将数据文件和文件夹上传到容器中。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485