在数据科学的领域中,掌握一些高级统计学的概念是非常重要的。这些概念不仅在特征工程和数据预处理中起到关键作用,而且在面试中也经常被提及。如果还没有阅读之前关于统计学的两篇文章,请务必先阅读它们,这将帮助打下坚实的基础。以下是文章的链接:
考虑一个随机变量X,如果它遵循高斯分布(正态分布),那么可以根据经验公式来确定数据点落在任何标准差范围内的百分比。但如果某个随机变量Y不属于高斯分布,想要找出数据点属于第一标准差的百分比,这时通常会使用切比雪夫不等式。
根据切比雪夫不等式,对于任意k值,有:
Pr(μ-kσ < X < μ+kσ) ≥ (1 - 1/k^2)
其中k指定了想要找出数据点落在哪个标准差范围内的百分比。例如,当k=2时,即使Y不遵循高斯分布,超过75%的数据点Y也会落在第二标准差的范围内。
分位数图在图形化分析和比较两个概率分布方面起着至关重要的作用,通过将它们的分位数相互对比来实现。它也用于特征变换中,以检查某个特征是否正态分布。如果完全正态分布,那么所有的点将完全位于一条直线上。
绘制Q-Q图的步骤:
使用Python绘制Q-Q图:
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stat # 概率图
import pylab
data = pd.read_csv('titanic_train.csv',usecols=['Age','Fare','Survived'])
def plot_data(df,feature):
plt.figure(figsize=(10,6))
plt.subplot(1,2,1) # 第一个图
df[feature].hist()
plt.subplot(1,2,2) # 第二个图
stat.probplot(df[feature], dist='norm', plot=pylab)
plt.show()
plot_data(data, "Age")
Q-Q图的局限性:如果样本数量很少,那么很难解释Q-Q图,这意味着如果数据集非常小,那么绘制Q-Q图将没有意义。
伯努利分布是一种总是输出2的分布。例如,抛硬币的结果可以是正面或反面。如果随机变量得到反面,其成功或值为1,如果正面则失败。
这被称为概率质量函数,还有一个之前在基础统计学中学习过的函数——概率密度函数。两者的区别在于,当使用PDF时,输出是连续值,而当使用PMF时,输出是离散值(固定值集合)。
μ=(失败的百分比)(0)+(成功的百分比)(1)
μ=(0.25)(0)+(0.75)(1)
μ=0+0.75
μ=0.75