正态分布,也称为高斯分布,是一种在自然和社会现象中广泛存在的连续概率分布。这种分布在商业、统计和政府机构(如FDA)中有着广泛的应用,例如人的身高、测量误差、血压、考试成绩、智商分数和薪水等。正态分布曲线在一些竞争性考试中也有所体现,如SAT、UPSC、JEE-Advanced和GRE等,其中正态分布表明大多数学生将获得平均分数(等级C),而较少的学生将获得B或D等级,更少的学生获得F或A等级。所有这些推断都来自于正态分布的经验公式,将在本文后续部分讨论。
正态分布在统计学中的重要性有以下几个原因:首先,统计假设检验假设数据遵循正态分布。其次,无论是线性还是非线性回归都假设残差遵循正态分布。此外,中心极限定理指出,随着样本量的增加,均值的分布将遵循正态分布,无论原始变量的分布如何。最后,大多数统计软件程序都支持正态分布的一些概率函数。
正态分布有两个主要参数:均值和标准差。通过这些参数,可以确定分布的形状和相对于问题陈述的概率。随着参数值的变化,分布的形状也会发生变化。
研究者使用均值或平均值作为中心趋势的度量。它可以用来描述以比率或区间测量的变量的分布。均值决定了峰值的位置,大多数数据点都围绕正态分布图中的均值聚集。如果改变均值的值,那么正态分布曲线将沿着X轴向左或向右移动。
标准差衡量数据点相对于均值的分散程度。它决定了数据点远离均值的程度,并表示均值和数据点之间的距离。标准差定义了图表的宽度。因此,改变标准差的值会收紧或扩展沿X轴的分布宽度。通常,相对于均值的较小标准差会导致曲线更陡峭,而较大的标准差会导致曲线更平坦。
所有形式的正态分布都具有以下特征:
正态分布的形状是完全对称的。这意味着正态分布曲线可以从中间分割,可以产生两个相等的一半。此外,当等量的观测值位于曲线的两侧时,存在对称形状。
正态分布的中点指的是具有最大频率的点,即包含大多数变量观测值的点。中点也是所有三个中心趋势度量值所在的点。这些度量在完全形状的正态分布中通常相等。
在正态分布的数据中,有一个恒定比例的数据点位于均值和特定数量标准差之间的曲线下。因此,对于正态分布,几乎所有的值都位于均值的3个标准差之内。这些正态分布的检查按钮将帮助意识到曲线下面积的适当百分比。请记住,这个经验法则适用于所有正态分布。另外,请注意,这些规则仅适用于正态分布。
偏度和峰度是衡量分布与正态分布差异的系数。偏度衡量正态分布的对称性,而峰度衡量尾部分布相对于正态分布的厚度。
曲线下的总面积为1(等于1)。
正态分布的概率密度函数的一般公式为:
f(x) = (1 / (σ * √(2 * π))) * e^(-((x - μ)^2) / (2 * σ^2))
其中,μ是位置参数,σ是尺度参数。
正态分布的累积分布函数的公式为:
F(x) = (1 / 2) * [1 + erf((x - μ) / (σ * √2))]