在这篇文章中,将以最简单的方式介绍统计学中用于衡量中心趋势的方法。让开始吧。
在深入中心趋势度量之前,让分享一个有趣的旁注。知道吗?这些中心趋势度量方法在第一次世界大战和第二次世界大战期间就已经被使用了。
具体来说,这些度量方法被用来评估在空战中飞机受到的损伤。此外,它们还被用来评估飞机在会合点的返回情况。这是不是很有趣?
在开始讨论中心趋势度量之前,需要理解一些核心概念。其中一个就是总体和样本。
总体:从定义上讲,总体是所有感兴趣的数据点的集合。让通过一个例子来理解这个概念。
例如:假设正在进行一项调查,目的是找出一个组织拥有的员工总数。在这种情况下,该组织中的员工总数被称为总体。
样本:从定义上讲,样本是总体的一个子集。让通过一个例子来理解这个概念。
例如:假设正在进行一项调查,目的是找出特定项目中的员工总数。在这种情况下,该项目中的员工总数被称为样本。
在大多数现实生活案例中,总是处理样本数据。这是因为样本比总体更容易收集和计算。基于对样本获得的结果,可以使用预测分析来对整个总体做出预测。
现在已经对总体和样本有了核心理解。让快速了解一下这方面的另外两个重要概念——参数和统计量。
参数:从定义上讲,与总体一起工作时获得的数字被称为参数。
例如:让考虑同样的例子,要计算一个组织中工作的员工总数。调查完成后,得到了一个数字——20000。在这个背景下,20000被称为参数。
统计量:从定义上讲,与样本一起工作时获得的数字被称为统计量。
例如:让考虑同样的例子,要计算特定项目中工作的员工总数。调查完成后,得到了一个数字——20。在这个背景下,20被称为统计量。
现在已经对总体和样本及其与参数和统计量的对应关系有了核心理解。在开始主要话题之前,可能会有疑问——“中心趋势是什么意思?”
中心趋势的概念基于以下事实——“如果提供了大量相似类型的观测值,大多数观测值在图形表示时似乎会围绕中心位置聚集”。
现在让开始讨论中心趋势度量。
这是中心趋势度量的第一个方法。平均数,也称为算术平均数,是所有数据点的统计平均值。
例如:让考虑前10个自然数——1,2,3,4,5,6,7,8,9,10
在这种情况下,平均数将是所有这些数字的总和除以问题中数字的总数。
(1+2+3+4+5+6+7+8+9+10)/10 = 5.5
平均数的优点:
平均数的缺点:
可能会问:“什么是异常值?”
异常值基本上是与考虑中的其他数据点显著不同的数据点。如果数据集有极高或极低的值,可能会被认为是异常值。检测异常值的多种技术,如箱线图、五数概括等,但这些概念超出了本文的范围。
这是中心趋势度量的第二个方法。中位数是数据集在按升序或降序排列时的中间数据点。
在这方面,中位数有两种变体。
偶数个数据点的中位数:如果有偶数个观测值或数据点,那么中位数就是中间两个数字的平均值。
例如:让考虑前10个自然数——1,2,3,4,5,6,7,8,9,10
在这种情况下,中位数将是中间两个数字的平均值,即5.5。
奇数个数据点的中位数:如果有奇数个观测值或数据点,那么中位数就是中间的观测值。
例如:让考虑前11个自然数——1,2,3,4,5,6,7,8,9,10,11
在这种情况下,中位数将是中间的观测值,即6。
中位数的优点:
中位数的缺点:
这是中心趋势度量的第三个也是最后一个方法。众数是数据集中出现次数最多的值。
例如:假设有以下数字——1,2,3,4,4,4,4,4,4,5,6,7,8,9
在这里,可以看到数字4重复出现的次数最多,因此将成为这个案例中的众数。
众数的优点:
众数的缺点: