使用AWS服务进行数据分析和可视化

在当今的数据驱动时代,对原始数据进行查询和分析变得尤为重要。本文将引导了解如何利用亚马逊的服务和工具来实现这一目标。亚马逊的存储、转换和可视化的完美结合可以帮助实现数据分析和可视化的目标。

所需的AWS服务和工具

以下是完成数据分析和可视化所需的亚马逊服务和工具:

  • 简单存储服务(S3):这是一个在线存储空间,可以在任何时间和任何地点存储和检索任何类型的数据。
  • AWS Athena:这是一个交互式服务,通过简单的SQL语句帮助分析和查询原始数据。
  • QuickSight:这是一个基于AWS的商业智能和可视化工具,用于可视化数据、执行即席分析,并从数据中提取业务洞察。

数据流程

将从左到右检查数据流。首先,将源文件上传到S3,然后连接Athena到S3以查询数据,最后使用QuickSight来可视化信息。

上传数据到S3

创建一个新的存储桶。在该存储桶中创建一个新的文件夹,因为Athena需要文件夹来访问数据。将源文件上传到先前创建的文件夹中。

在Athena中创建表和查询数据

有三种方式可以访问Athena:AWS管理控制台、Amazon Athena API或AWS CLI。本文将使用AWS管理控制台。在与Athena工作之前,请确保Athena区域与之前创建的S3存储桶区域相同。否则,将无法连接和查询数据。

AWS Athena具有简单且易于理解的界面。左侧部分,可以看到数据库以及所选数据库中的表和视图。右侧部分用于编写SQL查询,运行的查询结果显示在结果部分。此外,Athena允许保存或格式化查询。

菜单结构易于导航,包括五个主要标签:查询编辑器、保存的查询、历史记录、AWS Glue数据目录和工作组:主要。

创建表和配置数据格式

首先,需要创建一个表,有几种选项可以做到这一点。将从S3存储桶创建一个表。一旦选择这个选项,将被重定向到创建表的四步过程。

  1. 名称和位置:这一步定义了数据库、表名称和输入数据集的位置。
  2. 格式化数据:可以使用Athena访问几种数据格式。在这个例子中,将使用CSV文件并选择CSV作为数据格式。
  3. 列:源文件不包含列名称,因此需要在这一步指定它们。这是Athena了解正在处理的数据的架构所必需的。
  4. 分区:这一步可以配置分区。亚马逊建议分割数据以减少查询需要扫描的数据量。这可以提高性能并降低查询成本。

使用DDL语句创建表

CREATE EXTERNAL TABLE IF NOT EXISTS superstore.sales ( orderpriority STRING, discount DECIMAL, unitprice DECIMAL, shippingcost DECIMAL, customerid INT, customername STRING, shipmode STRING, customersegment STRING, productcategory STRING, productsubcategory STRING, productcontainer STRING, productname STRING, productbasemargin DECIMAL, region STRING, state STRING, city STRING, postal code INT, orderdate DATE, shipdate DATE, profit DECIMAL, quantityorderedednew DECIMAL, sales DECIMAL, orderid INT ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDE PROPERTIES 'serialization.format' = ',' LOCATION 's3://superstore-sales/sales/' TBLPROPERTIES ('has_encrypted_data'='false');

现在,只剩下查询表并检查配置是否正确的步骤了。运行以下简单的SQL查询来测试这一点:

SELECT DISTINCT region, productcategory, COUNT(productcategory) AS Quantity FROM sales WHERE region IN ('Central', 'East', 'West') GROUP BY region, productcategory ORDER BY region;

在结果部分运行此查询后,可以看到下图所示的输出。无论查询本身是否已保存,每次运行查询时都会自动保存输出文件。此外,通过在结果部分选择文件图标,可以下载包含查询结果的CSV格式文件。也可以从查询历史记录标签中下载。

如果从未使用过QuickSight,则必须创建一个帐户。在将其连接到Athena之前,请确保QuickSight有权访问信息。必须启用QuickSight访问Amazon Athena和S3。如果QuickSight没有这些权限,将无法分析和可视化在Athena中查询的数据。另一个重要的事情是区域。为QuickSight选择的区域必须与为Athena选择的区域相同。否则,QuickSight将无法访问在Athena中的数据。

有几种可视化或图形格式可供选择。可以选择条形图、饼图、环形图、折线图等图表。

在上面的图片中,使用垂直条形图有效地可视化了之前在Athena中查询的数据。仪表板会在数据更新或计划时自动更新。

AWSAthena用于快速轻松地运行查询,无需设置和管理任何服务器或数据仓库。如果需要分析大型数据集,这项服务是正确的选择。在本文中,使用S3存储数据,将Athena连接到S3以查询数据,最后使用QuickSight可视化信息。

基于AWS的商业智能和可视化工具,用于可视化数据、执行即席分析,并从数据中提取业务洞察。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485