高级统计学在数据科学中的应用

数据科学的领域中,掌握一些高级统计学的概念是非常重要的。这些概念不仅在特征工程数据预处理中起到关键作用,而且在面试中也经常被提及。如果还没有阅读之前关于统计学的两篇文章,请务必先阅读它们,这将帮助打下坚实的基础。以下是文章的链接:

基础统计学数据科学中的应用

中级统计学数据科学中的应用

目录

  • 切比雪夫不等式
  • 分位数-分位数(Q-Q)图
  • 伯努利分布
  • 对数正态分布
  • 幂律分布
  • Box-Cox变换

1) 切比雪夫不等式

考虑一个随机变量X,如果它遵循高斯分布(正态分布),那么可以根据经验公式来确定数据点落在任何标准差范围内的百分比。但如果某个随机变量Y不属于高斯分布,想要找出数据点属于第一标准差的百分比,这时通常会使用切比雪夫不等式。

根据切比雪夫不等式,对于任意k值,有:

Pr(μ-kσ < X < μ+kσ) ≥ (1 - 1/k^2)

其中k指定了想要找出数据点落在哪个标准差范围内的百分比。例如,当k=2时,即使Y不遵循高斯分布,超过75%的数据点Y也会落在第二标准差的范围内。

2) 分位数-分位数(Q-Q)图

分位数图在图形化分析和比较两个概率分布方面起着至关重要的作用,通过将它们的分位数相互对比来实现。它也用于特征变换中,以检查某个特征是否正态分布。如果完全正态分布,那么所有的点将完全位于一条直线上。

绘制Q-Q图的步骤:

  1. 对数据特征值进行排序并制作1到100的百分位数。
  2. 假设任何正态分布的特征或随机正态分布的变量。
  3. 简单地在正态分布图上绘制百分位数。如果所有点都位于线上,则表示正态分布。
  4. 如果所有点在线上端或线上方分开,则表示数据是右偏的。如果在线的开始处点位于线下,则表示数据是左偏的。

使用Python绘制Q-Q图:

import pandas as pd import matplotlib.pyplot as plt import scipy.stats as stat # 概率图 import pylab data = pd.read_csv('titanic_train.csv',usecols=['Age','Fare','Survived']) def plot_data(df,feature): plt.figure(figsize=(10,6)) plt.subplot(1,2,1) # 第一个图 df[feature].hist() plt.subplot(1,2,2) # 第二个图 stat.probplot(df[feature], dist='norm', plot=pylab) plt.show() plot_data(data, "Age")

Q-Q图的局限性:如果样本数量很少,那么很难解释Q-Q图,这意味着如果数据集非常小,那么绘制Q-Q图将没有意义。

伯努利分布是一种总是输出2的分布。例如,抛硬币的结果可以是正面或反面。如果随机变量得到反面,其成功或值为1,如果正面则失败。

这被称为概率质量函数,还有一个之前在基础统计学中学习过的函数——概率密度函数。两者的区别在于,当使用PDF时,输出是连续值,而当使用PMF时,输出是离散值(固定值集合)。

μ=(失败的百分比)(0)+(成功的百分比)(1) μ=(0.25)(0)+(0.75)(1) μ=0+0.75 μ=0.75
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485