在数据科学领域,社区对于学习的兴趣日益增长。定期举办名为“DataHour”的活动,旨在提高社区对数据科学学习的兴趣。这些网络研讨会由行业顶尖专家主持,他们教授并普及数据科学知识。以下是Shanthababu Pandian关于“BigQuery ML入门”的知识分享。
关于演讲者
Shanthababu Pandian是Cognizant的AI和数据分析负责人,拥有20多年的信息技术(IT)经验。他在机器学习、数据架构和项目交付方面拥有专业知识,包括与客户沟通、收集需求、架构设计以及根据交付框架制定成本效益的解决方案,并降低项目/交付风险。
BigQuery ML概述
众所周知,有许多云平台可供选择。但像Azure、AWS和谷歌云平台(GCP)这样的平台主导了全数字化转型计划。它们都是竞争对手,始终为用户提供卓越的服务。
将在这里讨论谷歌云平台(GCP)。谷歌与其他冠军公司相比是不同的,也是最好的。大约99%的在线用户以某种方式使用谷歌,无论是Chrome、Gmail、云等。
现在,如果看谷歌分析,它非常直接,并且以非常易于理解的方式创建数据图表。谷歌分析可以很好地处理大量数据。
什么是BigQuery ML?
BigQuery是一个可以处理大量数据的数据仓库。使用BigQuery,可以:
- 从各种来源收集数据
- 分析数据
- 以多种方式可视化分析结果。
BigQuery可以分为以下部分:
- 数据采集
- 存储
- 准备
如上图所示,首先,需要收集原始数据。它可以从云存储、谷歌表格、数据库等收集。所有收集到的数据都可以插入BigQuery空间,将获得精炼的数据。在BigQuery中,可以存储数据以及创建多个查询。借助SQL语句,可以分析数据并执行机器学习操作。可以将获得的数据连接到Locker、数据工作室、云AI等,因此拥有一个单独的云平台。可以用这个做很多事情。
BigQuery价格合理,并且兼容使用大量数据。
BigQuery ML的特点
多云功能:它允许跨多个云平台进行数据分析。它可以在数据所在的位置直接运行计算。甚至可以执行来自AWS、IBM和Azure等外部云平台的查询。可以在跨云中获得一致的数据体验,洞察数据。
内置ML集成(BQ ML):最好的事情是,开发人员可以使用简单的SQL语句构建ML。它用于在BigQuery中使用简单的SQL查询创建和执行机器学习模型。它消除了了解ML特定知识和编程技能(如Python、R或Java)的需要。它允许所有SQL从业者使用他们现有的技能构建ML模型。
BI基础(BQ BI引擎):这个引擎是一个内存中分析解决方案。分析存储在BigQuery中的数据,具有高并发性和响应时间。它带有SQL界面,这确实帮助与其他BI工具如Locker、Tableau、Power BI等进行交互。
地理空间分析(BQ GIS):BigQuery地理信息系统(GIS)提供有关位置和映射的信息。它将纬度和经度列转换为地理点。
自动数据传输(BQ数据传输服务):此服务是自动化的,数据定期进入BigQuery。不需要特殊编码。它负责数据回填,以补偿摄取过程中的任何间隙或中断。
BigQuery ML的特殊之处
想象有两个朋友,David和Paul,正在讨论ML项目。Paul学习了Python语言和基本的ML方面,并开始编写代码。Paul为此感到自豪,并在David面前炫耀,没有人可以在不知道Python语言的情况下从事ML项目。
另一方面,David有多年编写SQL查询的经验。David不知道任何编程语言。他想从事ML项目,但担心对他来说可能很困难,因为他不知道任何像Python、R或Java这样的编程语言。
Paul告诉他,没有基本编程语言的知识,就不可能从事ML方面。像David这样的人必须探索大数据BigQuery ML,这将帮助他们足够地从事ML项目,因为大多数客户希望在他们的项目中实施BigQuery ML。如果知道SQL,这很容易实现。以下是5个简单的机器学习过程步骤。
5个关键步骤掌握机器学习过程
如前所述,需要从各种来源收集数据。然后需要进行数据清理和未来工程。这对于获得黄金数据集非常重要。接下来,需要构建模型以选择正确的ML算法。之后将评估模型。最后,将在部署生产中部署模型。支持这些步骤的重要库包括NumPy、SciPy、Pandas、Matplotlib、Keras、TensorFlow、SciKit-Learn、PyTorch、Scrapy和Beautiful Soup。
David担心他必须从如此多的库中找到并学习。他假设他不适合做ML项目。他得出结论,Paul是正确的。
David只知道CRUD(创建、读取、更新、删除),一个基本程序。他在想,他是否可以在ML中使用这种方法。将在前面找到答案。
什么是BigQuery ML(机器学习)?
谷歌的BigQuery是一个无服务器的、高度可扩展的、成本效益的云数据仓库。它旨在帮助快速做出明智的决策,轻松转型业务。BigQuery使用标准SQL语法,在存储的数据上提供ML功能。
现在,David应该放松;是的,他可以使用SQL知识从事ML项目。
所以,如果想学习任何东西,忘记复杂性,专注于兴趣。有了奉献和基础知识,任何事情都是可能的。
BigQuery ML支持使用SQL查询运行模型,弥合了数据分析师和科学家之间的差距。
它支持各种模型,如线性回归二元、逻辑回归、多类逻辑回归、K均值聚类等。
如所见,以下是BigQuery ML数据在仓库中的完整工作流程。
ETL代表提取、转换和加载数据到BigQuery。一个非常关键的步骤是创建模型,然后评估它,最后预测模型。
对于模型创建,演讲者使用了他自己的数据库集,如下所示,即mydataset.mymodel。也可以在下面给出选项。对于功能信息,需要给出描述。
更多步骤:
- 现在,使用Gmail帐户登录BigQuery。它还会要求信用卡/借记卡详细信息。在屏幕下方,可以看到在BigQuery上创建的项目。也可以在其中创建新项目。一旦项目创建,就有特定的ID。
- 点击“添加数据”选项,并在这里上传excel csv文件。现在点击“编辑器”选项,可以看到执行的数据集。
- 当点击Editor2时,将看到所有执行的模型,如精度、召回率、准确性、损失等。
- 点击travel_insurance_model,然后“评估”,将看到所有必需和必要的信息,如下所示。