是否经常在数据科学任务中使用Pandas库?几乎每次都会用到!Pandas是数据操作和从数据集中生成摘要表格、可视化等洞察力的重要库。PandasGUI是一个基于Python的库,它通过图形用户界面(GUI)简化了数据操作和摘要统计的应用。这意味着所有操作都将通过GUI执行,但背后实际上是Pandas在执行这些操作。
PandasGUI是一个Python包,可以通过pip包管理器安装。建议使用Python 3.8及以上版本进行安装。同时,请确保创建一个独立的环境(虚拟环境)并在该环境中安装库。
conda create -n nameofenv python=version
conda activate nameofenv
pip install pandasgui
安装库可能需要一些时间,因为它的依赖项相当庞大。
首先,加载库。关注的是PandasGUI库中的show()函数,该函数初始化应用程序。
from pandasgui import show
这个函数有两种使用方式:可以直接实例化PandasGUI show函数,这将打开应用程序而不带任何数据集;或者可以将DataFrame传递给函数,应用程序将用数据集的行和列填充。这样,可以一次性加载多个数据集,而不需要将所有的DataFrame对象传递给show()方法。
现在,将不带任何数据集加载应用程序:
show()
将得到如下界面:
现在,将逐步探索这个应用程序的所有功能。
要将数据集加载到应用程序中,有多种选择:
请参考下面的GIF:
除了PandasGUI应用程序提供的各个选项卡和菜单外,还有一些操作可以直接通过触发显示的GUI元素来应用:
对数据集应用过滤器是任何数据科学任务中最重要的任务之一。它有助于隔离数据集的一个部分并在该隔离的部分上工作。在Pandas中,通常使用比较、阈值与列或整个数据集一起过滤数据。在PandasGUI中,可以使用右侧的过滤器选项卡进行相同类型的过滤。
只需输入过滤表达式,只有满足条件的数据才会显示。
统计在描述数据集的所有特征方面起着重要作用。这些包含参数,如百分位数,有助于了解数据的分布情况,均值,受异常值影响,但仍然可以告诉数据的中心位置和标准差告诉列数据在内部的变化程度。标准差为0的列将没有用处,因为这意味着列的所有值都是相同的,这对于预测目标值根本没有帮助。
要得出这样的洞察力,请单击统计选项卡,将获得数据类型、计数、唯一值数量、均值、标准差和最小-最大值的摘要。对于字符串类型的值,如均值等数值计算参数将是空的。
图表和可视化是使用视觉元素呈现数据摘要的强大工具。例如,分布图可以帮助确定列值是否与正态分布/钟形曲线一致,这简化了确定人口参数的任务,并基于样本得出事实。箱形图有助于确定数据的传播,应该考虑多少值作为异常值。它还表示50%的数据所在的位置。其他类型的图表,如直方图、条形图、散点图、折线图、等高线图都有各自的优势,因此绘制数据很重要。
要使用PandasGUI绘制此类可视化,请切换到图表选项卡,将得到如下初始屏幕:
# 选择图表类型,然后将列名从左侧面板拖到图表参数旁边。
可以看到,随着“x”的增加,“价格”呈指数增长。由于Plotly后端的原因,图表具有交互性。参数如“x”、“y”、“颜色”会根据要显示的图表而变化。例如,词云不会有“x”、“y”参数。
汇总表,如透视表,在根据聚合函数(如均值、中位数、总和等)汇总数据方面起着至关重要的作用。可以简单地使用重构选项卡创建这些表格。这个选项卡提供透视表、熔化表、合并和连接表。只需将列名从左侧面板拖到所需参数并点击完成。
将获得一个新的DataFrame,其中包含所选的汇总。
像任何其他应用程序一样,可以使用设置菜单中的设置偏好选项更改PandasGUI的默认设置。可以更改应用程序的主题为暗模式,禁用可编辑的屏幕功能,将auto_finish设置为True,更改渲染模式,将默认聚合函数从均值更改为其他函数,并格式化标题。
完成所有数据探索和操作后,可以使用编辑菜单的导出代码选项访问执行的所有操作的Pandas等效代码。代码将以操作顺序格式化,并为每个执行的操作提供适当的注释。
在相同的编辑菜单中,可以选择导出修改后的DataFrame。或者更简单地,可以将DataFrame名称拖放到任何文件夹,并将为该DataFrame创建CSV文件。