数据科学中的统计学重要性

数据科学领域,信息处理的方式至关重要。通常所说的从数据中发掘洞见,本质上是在挖掘可能性。在数据科学中,这些可能性被称为统计分析。许多人好奇,文本、图像、视频等高度非结构化的数据如何能被机器学习模型轻松处理。实际上,将这些数据转换成数值形式,虽然这并非原始数据,但却是数据的数值等价物。这引出了数据科学中一个非常重要的方面。

当数据以数值形式存在时,它为理解信息提供了无限的可能性。统计学作为理解数据并处理数据以获得成功结果的途径。统计学的力量不仅局限于理解数据,它还提供了衡量洞见成功的方法,为同一问题提供不同的解决方案,为数据找到正确的数学方法。

数据科学家通常在数据预处理上投入更多。这需要对统计学有良好的理解。处理任何数据时,总有一些通用步骤需要执行。使用各种统计测试确定特征的重要性。找出特征之间的关系,以消除重复特征的可能性。将特征转换为所需的格式。归一化和缩放数据。这一步还涉及识别数据的分布和数据的性质。对数据进行进一步处理,使用所需的数据调整。处理完数据后,确定正确的数学方法/模型。一旦获得结果,就在不同的准确性测量尺度上验证结果。从数据处理的开始到结束的整个周期中,每一步都需要统计学。这就是为什么一个好的统计学家也可以是一个好的数据科学家。

学习统计学的指南:理解统计学的每一个基本原理始终是必要的。然而,大多数人并不清楚从哪里开始。以下是一些关键概念,这些概念对于加快理解和掌握数据科学统计学的基础至关重要:概率、抽样、数据的倾向和分布、假设检验、变异性、回归。

概率是理解可能性的基本需求。以一个非常基本的例子开始——Team A在与Team B的足球比赛中获胜的几率是多少。为了得出这个答案,可能需要100人分别投票——样本数量。基于这些投票,可以有机会知道哪个队可以赢得比赛。

在这个例子中,遇到了另一个非常重要的概念,即抽样——确定正确的一组人。问题是什么是正确的一组人。让继续之前的例子,对于上述情况,需要那些对足球有深入了解的人,了解Team A和B的历史,不应该因为个人偏好而偏向某个队。因此,可以通过各种统计方法确定正确的样本。有各种抽样方法——简单随机抽样、系统抽样、分层抽样、聚类抽样等。

数据的分布是一个非常重要的方面。著名的分布如正态分布非常重要。例如,当谈论世界上身高和体重的分布时,它是正态分布的数据,显示出自然的对称性。正态分布的均值、众数和中位数都集中在中心峰值。这些数据被认为是非常准确的数据。因此,识别数据的分布和偏斜度是一个非常重要的概念。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485