在当今数据驱动的世界中,智能设备不断地收集和传输数据,这些数据被称为大数据,它们蕴含着宝贵的洞察力,可以在不同行业中解决现实问题。然而,这些数据可能是结构化或半结构化的,有时在其原始格式中高度非结构化。原始数据处理通常具有挑战性,容易出错,耗时且昂贵,因为需要高端资源。因此,公司寻求自动化解决方案,可以显著减少处理大量数据所需的时间。
数据处理中最关键的步骤之一是使用探索性数据分析(EDA)进行数据探索。根据不同的最终目标(回归或分类),执行不同的步骤来准备和格式化原始数据。这个过程涉及从所有可能的方向评估可用数据,以识别不同特征与目标之间的相关性。它还涉及识别和处理数据中的任何不一致性,如冗余、缺失值或异常值。大多数组织使用Python和R编程来处理他们获取的数据。因此,已经开发了几个开源软件包来自动化这两种编程语言中的EDA过程。这些库对于数据科学家来说很有帮助,可以更快地执行EDA,并将更多时间花在模型开发任务上。R初学者也可以使用这些库,因为它们易于使用,并且可以帮助他们用几行代码快速理解数据集。
本文将讨论三个AutoEDA R软件包及其各自的代码,以执行EDA。这些R软件包完成多个EDA任务,以高效地将数据总结到表格中,并准备详细的HTML报告,以加快新数据集的探索过程。
dataMaid
软件包可以创建不同格式的报告,如PDF、DOCX或HTML。生成的报告检查并简洁地总结数据集。它是检查数据集中错误的良好工具。将使用以下命令安装、导入并运行dataMaid
软件包:
install.packages("dataMaid")
library(dataMaid)
makeDataReport(df, output = "html", replace = TRUE)
从dataMaid
软件包生成的.html报告的.gif中,可以看到数据集中的所有差异都按变量总结在生成的报告中。因此,更容易理解数据质量并决定数据清洗所需的下一步。
DataExplorer
是R中最常用的AutoEDA软件包之一。有了DataExplorer
,可以简化EDA过程和报告生成。这个库自动扫描数据集中的变量,执行数据剖析,并提供许多有用的函数来创建数据集中离散和连续特征的各种图表。
install.packages("DataExplorer")
library(DataExplorer)
create_report(mtcars)
DataExplorer
库为数据集的EDA生成一个完整的HTML报告,使用create_report函数。这个函数还接受额外的参数来自定义EDA报告。当用浏览器打开报告HTML文件时,如下所示:
install.packages("SmartEDA")
library(SmartEDA)
ExpReport(df,op_file='smartEDA.html')
DataMaid
、DataExplorer
和SmartEDA
,在执行给定数据集的EDA方面都非常有效,可以考虑由组织中的数据科学家实施。