在数据科学领域,第一印象至关重要。正如人们所知,人脑处理视觉内容的速度比文本快60,000倍。这一原则同样适用于数据科学领域。整个数据科学过程可以分为六个部分,本文将一一介绍。
1. 确定研究目标(理解问题陈述)。
2. 检索数据。
3. 数据预处理。
4. 使用不同的探索技术探索数据。
5. 创建模型解决问题陈述。
6. 展示最终结果并解决实时问题。
根据一项调查,数据分析师在完成一个项目的过程中,超过50%的时间用于数据分析。但不用担心,本文将推荐一个最佳库,它将真正帮助节省大量时间。让看看这个库。
这是一个由Python提供的包,用于在Jupyter笔记本中进行交互式视觉分析。它生成了一个交互式视觉分析小部件,用于分析Pandas数据框架。它能够显示各种不同类型的图表,并支持交互式小部件中的联动画刷功能。
这使得即使是复杂的多变量数据集,数据探索和认知也变得简单。无需创建和样式化图表,它将自动化整个数据探索部分。更多信息,可以查看的文档。
使用pip安装:
pip install pandas-visual-analysis
使用Conda安装:
conda install -c meffmadd pandas-visual-analysis
从源代码安装此包,克隆到仓库或下载zip文件并运行:
python setup.py install
在查看这个出色的库之前,先理解为什么需要这个库。许多人在探索性数据分析方面确实遇到了困难,这是唯一的理由。但如果数据集更复杂,就不能使用它。让开始编码部分。
# 导入seaborn库
import seaborn as sns
# 查看seaborn中可用的数据集
print(sns.get_dataset_names())
# 输出:
# ['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes',
'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas',
'geyser', 'iris', 'mpg', 'penguins', 'planets', 'tips', 'titanic']
让使用iris数据集,希望对iris数据集或titanic数据集都很熟悉。
该数据集包括三种鸢尾花物种,每种50个样本,以及关于每朵花的一些属性。一种花物种与另外两种线性可分,但另外两种之间不是线性可分的。这个iris数据集中的列包括:
# 导入iris数据集
df = sns.load_dataset('iris')
# 从pandas_visual_analysis库导入VisualAnalysis
from pandas_visual_analysis import VisualAnalysis
# 可视化不同的图表
VisualAnalysis(df)
这里有三种选择类型,都非常出色。第一种是标准类型,它描述了数据集。如果在那时写“df.describe()”,那么将得到标准部分类型中提到的所有内容。
下一个选择类型是Additive,但为了更好地理解Additive,将覆盖Subtractive是什么。因为一旦理解了Subtractive,理解Additive将变得非常容易。
在Subtractive中,可以选择特定特征并在它们之间创建散点图。Subtractive提供了一个功能,从散点图中可以选取一些数据点并移除它们,这将帮助分析这些特定数据点对数据集的影响。它不会永久移除数据点,仅用于探索目的。
在下面的快照中,清楚地提到了首先,移除了红色高亮区域中的数据点,然后在下一个快照中,被移除的数据点以灰色显示(灰色意味着数据点已被移除),还可以看到由于移除了一小部分数据点,两个图像的左侧部分发生了变化。
从上面的快照中,可以很容易地理解,在移除红色高亮部分后,对数据集有什么影响。还有另外两个图表,第一个描述了在从数据集中移除红色高亮区域后,有多少数据被移除。