数据科学之旅中的关键统计概念

数据科学的广阔领域中,统计学的概念是通往成功之路的基石。本文将简要介绍一些个人钟爱的统计学概念,希望能够帮助在数据科学的道路上获得愉悦的体验。尽管已有众多相关文章,仍力求使本文更加简洁明了。统计学是机器学习和数据科学中的强大工具。一个基本的可视化,如箱线图,就能提供更多有用的信息,而统计学则能让更有针对性地深入理解数据。

概率分布

通过统计学概念,能够获得更多有用的洞见,了解数据的分布和结构,从而能够应用更多的机器学习技术来获取更多关于数据的知识。让深入探讨这些概念。

均匀分布指的是在特定范围内出现单一值,而范围外的值则为0。可以将其视为分类变量的表示,要么是0要么是1。分类变量可能具有多个值,但可以将其可视化为多个均匀分布的分段函数。

正态分布,也称为高斯分布,由其均值和标准差定义。均值决定了分布的空间位置,而标准差控制了分布的扩散程度。通过正态分布,可以了解数据集的平均值和数据的扩散情况。

泊松分布与正态分布相似,但增加了偏斜度。在低值偏斜时,它像正态分布一样在所有方向上均匀扩散。当偏斜值较高时,数据在不同方向上的扩散会有所不同。

了解这些分布有助于解释分类数据,许多算法在高斯分布下表现良好。在泊松分布中,需要额外小心,选择一个稳健的算法。概率分布有助于计算参数的置信区间和假设检验的临界区域。对于单变量数据,确定一个合理的分布模型是有益的。统计区间和假设检验依赖于特定的分布假设。

过采样和欠采样

分类问题中会使用这些技术。有时,分类数据集会偏向某一方。例如,有1000个类别1的样本,但类别2只有200个。有机器学习技术来建模数据并进行预测。在这种情况下,有两种预处理选项,可以帮助训练机器学习模型。

欠采样意味着只从多数类中选择与少数类相同数量的数据。现在在类别的概率分布上达到了平衡。通过选择较少的样本,平衡了数据集。

过采样意味着复制少数类,使其数量与多数类相同。现在平衡了数据集和少数类的分布,而无需额外的数据。

在上述例子中,可以用两种方式解决问题。通过欠采样,为类别1和类别2各选择200条记录。另一种方法是使用过采样或上采样,将200个样本复制到800个,这样两个类别各有1000个样本,模型工作得更好。

准确性

准确度是评估模型性能的重要指标,但在某些情况下,它并不是一个高效的度量。精确度告诉在预测出的阳性中,模型有多精确/准确。当假阳性的成本很高时,精确度是一个很好的度量标准。在电子邮件垃圾邮件检测中,假阳性意味着一个非垃圾邮件(实际阴性)被显示为垃圾邮件(预测垃圾邮件)。如果垃圾邮件检测模型的精确度不高,电子邮件用户可能会丢失重要邮件。当与假阴性相关的成本很高时,召回率是选择模型的最佳指标。例如,在欺诈检测中。如果一个欺诈交易(实际阳性)被判定为非欺诈性(预测阴性),对银行的后果将更加严重。

假设检验和统计显著性

假设检验统计学中的一个重要步骤。它有助于评估关于总体的两个相互排斥的陈述,以确定哪个论点最能得到样本数据的支持。统计显著性是衡量零假设为真与可接受的不确定性水平相比的概率。5%或更低的p值被认为是统计显著的。统计假设检验有助于确定数据集的结果是否具有统计显著性。

维度缩减是减少数据集维度的过程。这样做的目的是解决高维数据集出现的问题。换句话说,它具有许多特征。当数据集中存在更多的依赖变量时,就需要更多的样本来拥有每个特征的组合,这增加了模型的复杂性。维度缩减可以减少相当于许多特征的数据量,有助于更快的计算、减少冗余和更准确的模型。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485