Azure Data Lake Storage Gen1 提供了一种方式,使得 RapidMiner Studio 能够直接与之交互,包括读取和写入数据。这种功能是通过 Azure Data Lake Storage 连接器实现的。甚至可以使用 Azure Data Lake Storage Data Cloud Icon Loop 操作符从 Azure Data Lake Storage 目录中读取一系列文件。本文将详细展示如何进行这些操作。
在开始使用 Azure Data Lake Storage 连接器之前,需要配置 Azure 环境以支持远程连接,并在 RapidMiner 中设置一个新的 Storage Gen1 连接。这需要完成以下几个主要步骤(具体细节如下)。
创建并配置一个 Azure AD Web 应用程序,以启用使用 Azure Active Directory 的 Azure Data Lake Storage Gen1 的服务到服务认证。按照服务到服务认证指南的步骤 1 到步骤 3 进行操作。第一步是注册一个 Web 应用程序,它将为 RapidMiner 提供访问 Storage 的权限。请注意,可以为名称和登录 URL 字段使用任何值。
第二步描述了如何获取租户 ID、注册应用程序的应用 ID 和必须在 RapidMiner 中提供的密钥以使用该应用程序。第三步将配置这个 Active Directory 应用程序以访问 Data Lake 存储。
完成这些步骤后,应该有一个配置好的 Web 应用程序注册,以访问目标 Azure Data Lake Storage Gen1 资源的一些或全部组件。
请注意,为了使 RapidMiner 的操作符文件查看器(如下所述)工作,必须授予根目录以及想要允许导航的所有目录的读取和执行访问权限。此外,还需要从 RapidMiner 写入云存储的权限。如果可以不使用文件浏览器工作,可以将权限限制在直接使用的文件夹/文件上。
要在 RapidMiner 中创建连接,需要获取以下信息。上一步和链接的指南描述了如何获取它们,但让在这里重复直接链接到这些细节。
标识公司账户的租户 ID。获取租户 ID。
账户的完全限定域名。示例:如果 Azure Data Lake Storage Gen1 名为 Contoso,则 FQDN 默认为 contoso.azuredatalakestore.net。
创建的 Web 应用程序的应用 ID 和应用密钥。获取应用 ID 和验证密钥。
一旦有了所有信息,设置 RapidMiner 中的连接就变得很容易了。
通过转到管理连接图标连接 > 管理连接,在 RapidMiner Studio 中打开管理连接对话框。点击左下角的添加连接图标:输入新连接的名称,并选择数据云图标 Azure Data Lake Storage Gen1 连接作为连接类型:填写 Azure Data Lake Storage Gen1 账户的连接详情。输入租户 ID、账户 FQDN(完全限定域名)、客户端 ID(Web 应用程序 ID)和客户端密钥(访问 Web 应用程序的密码)。
虽然不是必需的,但建议通过点击测试图标测试新的 Azure Data Lake Storage Gen1 连接。点击保存按钮保存所有更改图标以保存连接并关闭管理连接窗口。现在可以开始使用 Azure Data Lake Storage 操作符了。
数据云图标读取 Azure Data Lake Storage 操作符从 Azure Data Lake Storage Gen1 账户读取数据。该操作符可以用来加载任何文件格式,因为它只下载文件而不处理它们。要处理这些文件,需要使用额外的操作符,如 CSV 读取、Excel 读取或 XML 读取。
让从 Azure Data Lake Storage 读取一个简单的 CSV 文件开始。在 RapidMiner Studio 中打开一个新进程,并选择空项目。将数据云图标读取 Azure Data Lake Storage 操作符拖到进程视图中,并将输出端口连接到进程的结果端口:
点击文件选择器图标以查看 Azure Data Lake Storage Gen1 账户中的文件。选择想要加载的文件并点击文件选择器图标打开。请注意,如果想从根文件夹开始使用文件浏览器,必须有读取和执行访问根目录的权限。如果没有这个权限,可以在参数字段中输入路径。如果有访问此路径的父文件夹(文件或目录)和根文件夹的权限,可以打开文件浏览器。或者,总是可以使用手动输入的路径和操作符(在这种情况下,权限仅在运行时检查)。
如上所述,Azure Data Lake Storage 的数据云图标读取操作符不处理指定文件的内容。在示例中选择了一个 CSV 文件(逗号分隔值文件)。这种文件类型可以使用读取 CSV 操作符进行处理。
在数据云图标读取和结果端口之间添加一个 CSV 读取操作符。可以根据 CSV 文件的格式设置读取 CSV 操作符的参数,例如列分隔符:
运行进程!在结果视图中,应该看到一个包含所选 CSV 文件的行和列的表格:
现在可以使用其他操作符来处理这个文档,例如,确定某些事件的频率。要将结果写回 Azure Data Lake Storage,可以使用数据云图标写入操作符。它使用与 Azure Data Lake Storage 的数据云图标读取操作符相同的连接类型,并具有类似的界面。还可以使用方法数据云图标循环操作符从存储目录中读取一系列文件。为此,需要指定要处理的连接和文件夹以及带有嵌套操作符的处理循环步骤。有关更多详细信息,请参见数据云图标循环操作符帮助。