推断统计学是描述和建模变异性的方法,以及在存在变异性时做出决策的工具。在推断统计学中,通常希望对某个总体做出决策。总体指的是希望得出结论或做出决策的所有元素的测量集合。在大多数统计学应用中,可用的数据来自于从感兴趣的宇宙中选取的样本单位。
假设有一个具有总体参数(μ, σ)的总体。可能不知道总体参数,或者甚至不容易找到总体参数。因此,尝试通过抽取大小为n的样本并计算用于估计参数的统计量来估计总体参数。如果再次抽取大小为n的随机样本,然后再次计算统计量,可能会得到一个不同的值。因此,可以得到的统计量值的分布是什么?可以得到不同统计量值的频率是多少?这种分布就是样本分布。
例如,假设有一个包含三个数字的总体——1、2和3。总体的平均值(用μ表示)将是(1+2+3)/3,即2。现在,从总体中随机抽取大小为2的样本,并报告每次样本的样本统计量x̅。
# 抽取的数字
x̅
1,1
1
1,2
1.5
1,3
2
2,1
1.5
2,2
2
2,3
2.5
3,1
2
3,2
2.5
3,3
3
假设有一个大碗,里面装有10,000个不同颜色的球,其中60%是黄色的。那么总体参数就是p = 0.6。让Y成为一个随机变量,当从碗中得到一个黄色球时取值为1,当得到一个不同颜色的球时取值为0。显然,Y遵循伯努利分布。Y的均值和标准差分别是0.6和0.49。
让X成为另一个随机变量,表示10个独立的伯努利试验的总和。X的均值和方差分别是10×0.6 = 6和标准差是1.55。注意,如果np >= 10和n(1-p) >= 10,样本比例的样本分布大约是正态形状。
中心极限定理(CLT)指出,随着样本大小的增大,样本均值的分布近似于正态分布,假设所有样本大小相同,无论总体分布的形状如何。也就是说,当在频率分布曲线上绘制随机变量的样本分布的均值时,它近似于正态分布。
需要注意的几点:
假设有100,000名选民,有两位候选人A和B参加选举。想知道候选人A赢得选举的可能性。由于总体比例即支持A的比例是未知的,为了估计总体比例,从总体中抽取许多样本(比如说样本大小n = 100),并计算每个样本的样本比例。
由于样本大小远小于总体(远小于10%),可以假设询问每个人关于他们对A和B的偏好是大致独立的。实际上并不知道实际的总体参数是什么(即p)。所以,对于第一种情况,即n = 100和p-hat = 0.54,可能会得到各种各样的结果。样本比例p-hat = 0.54可能高于'p'(总体参数)或低于p。有这种不确定性,因为实际上并不知道真实的总体比例(参数)。
现在,感兴趣的是——p-hat = 0.54在p的2个标准差内的概率是多少?(即95%)也就是说,如果取一个100的样本大小并计算样本比例,将在95%的时间里在2个标准差内。由于p未知,无法计算样本比例的标准差。相反,将计算样本比例的标准误差。所以,对于95%的置信度,它将产生区间(并且区间不会总是相同的,因为它取决于样本比例),这些区间将在95%的时间里包含真实的比例,即总体比例'p'。
如果想要缩小区间,即必须降低误差范围,即必须增加n(样本大小),因为标准误差与n成反比。所以,用置信区间回答的问题是:对于任何给定的估计(样本),有多大的信心认为围绕该样本的某个范围实际上包含了真实的总体比例?
注意:
例如:假设一个棒球教练对他的联盟中快速球的真实平均速度感到好奇。教练记录了100个随机样本中每个快速球的速度(以km/h为单位),并构建了一个95%的均值置信区间。得出的区间是(110,120)。能说有95%的机会真实均值在110和120 km/h之间吗?
在这种情况下,不会说有95%的机会这个特定的区间包含了真实均值,因为这意味着均值可能在这个区间内,也可能在其他地方。这种措辞使它看起来好像总体均值是可变的,但它不是。这个区间要么捕捉到了均值,要么没有。区间会随着样本的变化而变化,但试图捕捉的总体参数并没有变化。
更安全的说法是,有95%的信心这个区间捕捉到了均值,因为这种措辞更接近于置信水平的长期捕捉率。
1. 随机条件:随机样本为提供了来自总体的无偏数据。当样本不是随机选择时,数据通常具有某种形式的偏差,因此使用未经随机选择的数据来推断其总体是有风险的。
2. 正态条件:只要预期的成功和失败次数都至少为10,p-hat的样本分布就近似于正态分布。这发生在样本大小n相当大时。
标准误差 = sqrt[(p-hat * (1 - p-hat)) / n]