数据分析是无处不在的,它存在于电子表格、社交媒体平台、调查问卷等多种形式中。通过清洗、转换、解释、分析和可视化这些数据,可以提取有用信息,获得宝贵见解,从而做出更有效的商业决策。这个过程被称为数据分析。数据分析可以分为六种类型:探索性分析、描述性分析、推断性分析、预测性分析、因果分析和机制分析。本文将深入探讨探索性分析。
探索性数据分析(EDA)是一种初步的数据分析方法,它通过统计和可视化工具发现数据中度量之间的关系,洞察数据集中各种实体之间的趋势、模式和关系。探索性数据分析可以分为图形和非图形两种方式,每种方式又可以是单变量、双变量或多变量的。
单变量分析关注单一的依赖变量。其目标是提取数据,定义和总结它,并分析其中存在的模式。在数据集中,它分别探索每个变量。单变量分析可以处理两种类型的变量——分类变量和数值变量。
单变量分析可以识别的一些模式包括集中趋势(均值、众数和中位数)、离散度(范围、方差)、四分位数(四分位距)和标准差。单变量数据可以通过以下方式描述:
频率分布表反映了数据中某个事件发生的频率。它提供了数据的简要概念,并使寻找模式变得更容易。例如,以下是一组智商分数的列表:118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154。
条形图非常适合比较数据的类别或不同数据组。它有助于跟踪随时间的变化。它是可视化离散数据的最佳选择。
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
courses = ['机器学习','网页开发','应用开发']
students_enrolled = [50,37,42]
ax.bar(courses,students_enrolled)
plt.show()
直方图类似于条形图,显示相同的分类变量与数据类别的关系。直方图将这些类别显示为箱,表示一定范围内的数据点数量。它是可视化连续数据的最佳选择。
饼图主要用于理解一个群体如何被分解成更小的部分。整个饼图代表100%,而切片表示特定类别的相对大小。
类似于直方图,频率多边形用于比较数据集或显示累积频率分布。
双变量分析涉及两个变量。分析与两个变量之间的因果关系和关系有关。双变量分析有三种类型。
散点图代表使用点表示单个数据点。这些图表使人们更容易看到两个变量是否彼此相关。
卡方检验用于确定分类变量之间的关联。它基于频率表中一个或多个类别的预期频率和观察频率之间的差异来计算。
Z检验和T检验用于计算样本与总体之间的差异是否显著。
方差分析用于确定两个以上组别的平均值之间是否存在显著差异,这些组别在统计上是不同的。这种分析适用于比较一个分类变量的两个以上类别的数值变量的平均值。
当需要同时分析两个以上的变量时,就需要进行多变量分析。对于人脑来说,在图表中可视化四个变量之间的关系是一项极其困难的任务,因此多变量分析被用来研究更复杂的数据集。多变量分析的类型包括聚类分析、因子分析、多元回归分析、主成分分析等。
聚类分析将不同的对象分类到聚类中,使得同一组内两个对象之间的相似性最大,否则最小。当数据表的行和列代表相同的单位,而度量代表距离或相似性时,使用聚类分析。
主成分分析(PCA)用于降低具有大量相关度量的大数据表的维度。在这里,原始变量被转换为一组新的变量,这些变量被称为主成分分析的“主成分”。
对应分析使用来自列联表的数据,显示两个不同组变量之间的相对关系。列联表是一个二维表格,行和列作为变量组。
已经探索了各种方法来理解数据,从一次检查一件事到分析不同因素之间的关系。这有助于揭示模式和洞察,有助于更好的决策。总的来说,通过不同的分析,获得了宝贵的知识,以指导未来的行动和研究。
希望现在对单变量、双变量和多变量分析中使用的各种技术有了更好的理解。