探索性数据分析工具Einblick的使用指南

探索性数据分析(EDA)是一种通过数值摘要和可视化来识别变量之间潜在关系的方法。使用汇总统计和图形工具来了解数据,并从中推断出可能的结论。为了进行EDA,通常会使用各种技术,包括Python和Pandas Profiling。然而,要有效地使用这些工具,一个人必须熟悉编程,学习这些工具需要大量的时间和精力。

如果可以通过拖放而不是编写大量代码来制作可视化,那将是多么酷的事情啊!如果能够不写任何代码就制作汇总统计,那将是多么方便!Einblick可以做到这一切,而且操作起来非常简单。

在本文中,将讨论Einblick,并在tips数据集上使用Einblick进行探索性数据分析。Einblick是一个可以用来探索数据集、创建机器学习模型并进行预测的工具。它还可以用来部署数据应用,最棒的是,这个工具可以与许多团队成员实时协作使用。

可以使用这个工具来清理数据,探索和可视化数据。还可以使用它来操作数据并创建聚合表。Einblick还提供了一个AutoML解决方案,可以用来创建机器学习模型并进行预测。可以对数据进行编码,提取文本特征,并执行聚类分析。所有这些操作都不需要编写任何代码,只需要拖放相应的元素即可。

但这并不意味着它是完全无代码的。它还提供了创建Python单元格的选项,以便可以进行任何复杂的数据操作。在后续的部分中,将看到如何制作可视化并探索数据集。将使用tips数据集进行演示。

首先,访问官方网站并注册一个免费账户。将看到一个类似于下面的仪表板。点击屏幕上可见的“新建画布”按钮。它将创建一个新的画布,可以在其中执行所有操作。点击Dataframes选项旁边的加号符号并上传数据集。上传完成后,将数据集拖放到画布上,即屏幕的右侧空白区域,并点击“表格”选项以查看数据框。

现在,让使用“分析器”选项来描述数据集。在“操作”菜单下,点击“核心”选项。可以看到“分析器”选项。将其拖放到画布上,即屏幕的右侧。一旦将其拖放到画布上,拖动数据框上可见的下箭头标记,并将其连接到“分析器”磁贴的加号符号上。之后,Einblick将在后台工作并描述数据集中的所有列,如下所示。

正如所看到的,所有列都连同它们的空值和唯一值一起被描述了。对于数值变量,还描述了汇总统计信息,如平均值、最大值和最小值。所有这些操作都不需要编写任何代码。只是上传了一个数据集,拖放了相应的磁贴,就得到了这些结果。现在让绘制一些图表并查看数据集中的趋势。

首先,将绘制“总账单”和“小费”之间的散点图。为此,在“操作”菜单下,点击“可视化”菜单并将“图表”选项拖放到画布上。现在将数据框连接到这个图表磁贴,就像之前做的那样。现在需要选择想要的图表类型。由于这是一个散点图,点击图表磁贴上的图表类型并选择散点图。同时选择x轴和y轴。Einblick将自动为绘制图表。

可以看到总账单和小费之间的散点图。现在让看一些单变量图。首先,将绘制属性“性别”的计数图。像之前做的那样将“图表”选项拖放到画布上。现在,选择垂直条形图。选择“性别”作为x轴,聚合作为“计数”,因为想要看到计数图。现在选择y轴为“性别”,将得到一个计数图,如下所示。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485