数据科学流程与Pandas可视化分析

数据科学领域,第一印象至关重要。正如人们所知,人脑处理视觉内容的速度比文本快60,000倍。这一原则同样适用于数据科学领域。整个数据科学过程可以分为六个部分,本文将一一介绍。

数据科学流程:

1. 确定研究目标(理解问题陈述)。

2. 检索数据。

3. 数据预处理。

4. 使用不同的探索技术探索数据。

5. 创建模型解决问题陈述。

6. 展示最终结果并解决实时问题。

根据一项调查,数据分析师在完成一个项目的过程中,超过50%的时间用于数据分析。但不用担心,本文将推荐一个最佳库,它将真正帮助节省大量时间。让看看这个库。

Pandas可视化分析库

这是一个由Python提供的包,用于在Jupyter笔记本中进行交互式视觉分析。它生成了一个交互式视觉分析小部件,用于分析Pandas数据框架。它能够显示各种不同类型的图表,并支持交互式小部件中的联动画刷功能。

这使得即使是复杂的多变量数据集,数据探索和认知也变得简单。无需创建和样式化图表,它将自动化整个数据探索部分。更多信息,可以查看的文档。

使用pip安装:

pip install pandas-visual-analysis

使用Conda安装:

conda install -c meffmadd pandas-visual-analysis

从源代码安装此包,克隆到仓库或下载zip文件并运行:

python setup.py install

在查看这个出色的库之前,先理解为什么需要这个库。许多人在探索性数据分析方面确实遇到了困难,这是唯一的理由。但如果数据集更复杂,就不能使用它。让开始编码部分。

# 导入seaborn库 import seaborn as sns # 查看seaborn中可用的数据集 print(sns.get_dataset_names()) # 输出: # ['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'tips', 'titanic']

让使用iris数据集,希望对iris数据集或titanic数据集都很熟悉。

该数据集包括三种鸢尾花物种,每种50个样本,以及关于每朵花的一些属性。一种花物种与另外两种线性可分,但另外两种之间不是线性可分的。这个iris数据集中的列包括:

  • Id(每条记录的唯一编号)
  • SepalLengthCm(花萼长度)
  • SepalWidthCm(花萼宽度)
  • PetalLengthCm(花瓣长度)
  • PetalWidthCm(花瓣宽度)
  • Species(物种)
# 导入iris数据集 df = sns.load_dataset('iris') # 从pandas_visual_analysis库导入VisualAnalysis from pandas_visual_analysis import VisualAnalysis # 可视化不同的图表 VisualAnalysis(df)

这里有三种选择类型,都非常出色。第一种是标准类型,它描述了数据集。如果在那时写“df.describe()”,那么将得到标准部分类型中提到的所有内容。

下一个选择类型是Additive,但为了更好地理解Additive,将覆盖Subtractive是什么。因为一旦理解了Subtractive,理解Additive将变得非常容易。

在Subtractive中,可以选择特定特征并在它们之间创建散点图。Subtractive提供了一个功能,从散点图中可以选取一些数据点并移除它们,这将帮助分析这些特定数据点对数据集的影响。它不会永久移除数据点,仅用于探索目的。

在下面的快照中,清楚地提到了首先,移除了红色高亮区域中的数据点,然后在下一个快照中,被移除的数据点以灰色显示(灰色意味着数据点已被移除),还可以看到由于移除了一小部分数据点,两个图像的左侧部分发生了变化。

从上面的快照中,可以很容易地理解,在移除红色高亮部分后,对数据集有什么影响。还有另外两个图表,第一个描述了在从数据集中移除红色高亮区域后,有多少数据被移除。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485