在数据分析领域,有两门科学构成了所有数据分析工作的基础。它们使能够理解、操作并有效利用庞大的信息资源。无论是识别模式、做出数据驱动的决策还是构建复杂的机器学习模型,都离不开统计学和概率论的概念。本文将讨论一些非常基础的概念,如数据类型、均值、中位数、众数、变异性——方差和标准差,以及概率论,这些对于任何有志于成为数据科学家的人来说都是非常重要的。
正如卡尔·皮尔逊所说:“统计学是科学的语法。”本文作为数据科学博客马拉松的一部分发布。
数据是通过不同来源收集的信息,可以是定性的或定量的。大多数情况下,收集的数据用于分析并就特定主题得出见解。例如,汽车销售中可能涉及的数据包括气缸大小、里程、颜色等;在医学领域,数据可能用于检测身体细胞是否恶性或良性以诊断癌症。
数据可以分为数值型和分类型两大类。数值型数据是量化的测量,而分类型数据则是定性的,没有内在的数学意义。
数值型数据以数字形式存在,可以是离散的或连续的。
离散数据是指只能取特定值的数据,通常是整数,但不一定。例如,硬币翻转的次数或人们的鞋码。
连续数据是指可以在一定范围内取任意值的数据。例如,某一天降雨的厘米数。
分类数据是定性的,没有数学意义,是将观察单位归入某个固定值的类别。例如,性别、二元数据(是/否)以及车辆的属性,如颜色、里程、门数等。
序数数据是数值型和分类型数据的结合,即具有数学意义的分类数据。例如,餐厅的评分从1到5,1表示最低,5表示最高。
描述性统计包括均值、中位数和众数,它们是描述数据集中心趋势和分散程度的指标。
均值是数学和统计学中用来表示数值型观测值平均值的一个指标,等于所有观测值之和除以观测值的数量。公式为:
均值 = (观测值之和) / (观测值数量)
中位数是将数据按升序或降序排列后,位于中间位置的观测值。如果数据点数量为奇数,则中位数是中间的值;如果为偶数,则中位数是两个中间值的平均值。
众数是数据集中出现频率最高的值。例如,在数据集{5, 2, 6, 5, 1, 1, 2, 5, 3, 8, 5, 9, 5}中,数字5是众数,因为它出现得最频繁。
方差是衡量数据集中数据点相对于均值的分散程度的一个指标。计算方差的步骤包括找到均值、计算每个数据点与均值的差、求差的平方、计算平方差的平均值。公式为:
方差 = Σ(xi - 均值)^2 / n
标准差是衡量数据点相对于均值的变异程度,计算为方差的平方根。在数据科学中,标准差常用于识别数据集中的异常值。公式为:
标准差 = √(方差)
总体数据指的是完整的数据集,而样本数据是总体数据的一部分,用于分析。在分析样本数据时,方差的计算公式略有不同,如果样本总数为n,则除以n-1而不是n。
样本方差 = Σ(xi - 样本均值)^2 / (n - 1)
概率是一个事件将要发生的可能性或事件发生的机会。例如,抛硬币得到正面的概率是0.5。
条件概率是在另一个事件已经发生的情况下,某个事件发生的概率。公式为:
P(A|B) = P(A ∩ B) / P(B)
P(A|B) = (P(B|A) * P(A)) / P(B)