随着云计算平台的兴起,它们在减少对物理IT系统的依赖和提供更流畅的存储、效率和可扩展性方面发挥了重要作用。众所周知,Google Cloud Platform(GCP)是领先的云服务提供商之一,提供多种服务。本文将重点介绍GCP的查询语言平台BigQuery和可视化分析工具Data Studio。
Google BigQuery是一个无服务器的数据仓库平台,可以在此查询和处理大量数据。最棒的是,即使数据集相对较大,也可以在几秒钟内运行多个查询。如果熟悉SQL(结构化查询语言),那么上手将会相当容易。让开始了解BigQuery的基础知识!
打开,GCP窗口将打开。理想情况下,需要有一个Google账户。在搜索标签中输入BigQuery,这将重定向到BigQuery查询编辑器窗口。
首先,可以使用GCP现有的公共数据集(是的!GCP也有样本数据集供探索!)。转到窗口左侧,会找到一个“添加数据”选项——在这里,选择“探索公共数据集”,公共可用的数据集将被列出。(或者,也可以使用“外部数据源”选项添加自己的数据。)选择想要查看的数据集,它将被添加到主编辑器窗口中的项目名称“bigquery-public-data”下。在例子中,已经加载了Covid-19数据集。
现在已经准备好了数据,可以点击左侧的特定数据集,BigQuery将为提供数据集的摘要——从使用的列及其数据类型到数据的预览:
点击“查询表”选项将显示编辑器中的示例查询语句。可以继续使用基于SQL的查询来探索数据!
接下来,将通过创建一个表来子集Covid19数据集。为此,需要创建自己的“项目”(类似于为数据设置文件夹位置)。转到主编辑器窗口左上角的蓝色条,然后选择“选择项目”。一个弹出窗口将打开。点击右上角的“新建项目”选项,并按如下方式输入新项目名称:
创建完成后,它将反映在主编辑器窗口的左侧。现在有一个项目准备好了,接下来需要在此位置下创建一个数据集来存储想要创建的新表。
为此,点击左侧的项目名称,以例子为“bigqueryproject2020”,然后选择“创建数据集”选项。输入数据集名称,然后点击“创建数据集”。
现在,在查询编辑器中,将使用SQL查询在新位置创建一个名为“myproject_covid_data”的表:
现在有了按国家和日期分类的确诊、死亡和康复的Covid病例数量。接下来想要从这些数据中提取一些洞察——这就是Data Studio发挥作用的地方。
Google Data Studio是一个可视化平台,可以在此快速创建仪表板和报告。GCP提供了一个非常有用的选项,可以将BigQuery上的数据导出到Data Studio,以便可以立即开始处理洞察!让在下一节中探索这一点。
在之前的部分中,创建了子集表“myproject_covid_data”。要在Data Studio中对其进行可视化,请转到查询结果窗格下方的“导出”选项,并选择“用Data Studio探索”。一个新窗口将打开用于可视化:
将在右侧看到许多图表/视觉选项和要在可视化中表示的指标。现在让创建一个显示按日期分类的确诊与康复Covid病例数量的可视化,并按国家过滤以查看结果。
从右侧选择组合图表(条形图+折线图)。在右下角,将看到两个标签页“数据”和“样式”——可以在“数据”标签页下添加所需的指标,并在“样式”标签页下对图表进行视觉格式化。
在“数据”标签页下,将“日期”列添加到维度下,将“new_confirmed”和“new_recovered”添加到指标下。会注意到这些列自动选择了求和聚合,这正是想要查看的。