在这篇文章中,将深入探讨二项分布,不仅包括其理论基础,还将通过实际操作来加深理解。将通过投掷硬币的实验来展示二项分布在不同条件下的表现,包括有偏和无偏两种情况。
在深入讨论二项分布之前,先来了解概率分布的背景知识。概率分布是统计学中的一个概念,它描述了随机变量可能取值的分布情况。简单来说,概率分布就是将所有可能的值按照它们发生的概率进行分配。这个过程会涉及到诸如偏度、标准差、峰度等统计学因素。
概率分布主要分为两大类:
在进行统计学概念的计算和可视化之前,需要导入必要的包。以下是Python中常用的几个统计学和可视化包:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
二项分布是离散概率分布的一种,它处理的是离散随机变量。二项分布描述了在固定次数的独立实验中,成功次数的分布情况。这些实验被称为伯努利试验,它们需要满足以下条件:
Python的二项分布函数有三个参数:
在这个实验中,将使用Python的统计学包来执行这些分布函数,并进行可视化。将以投掷公平硬币10次为例(这可以表示为多次试验),并改变成功发生的概率,观察直方图(表示事件发生的概率)和试验次数的变化。
这个实验将告诉,在投掷硬币时,得到1个头、2个头、3个头甚至0个头的可能性。
fair_coin_flips = stats.binom.rvs(n=10, p=0.5, size=10000)
print(pd.crosstab(index="counts", columns= fair_coin_flips))
pd.DataFrame(fair_coin_flips).hist(range=(-0.5,10.5), bins=11)
biased_coin_flips = stats.binom.rvs(n=10, p=0.8, size=10000)