数据科学中的统计学基础

数据科学是一个跨学科领域,它运用各种算法或技术从数据中提取信息。掌握数据科学不是一蹴而就的事情,它是一个渐进的过程。要成为一名数据科学家,需要掌握多种技能,其中最重要的是统计学概率论

可能会问,这些统计学知识在数据科学和现实生活中是如何应用的?本文将介绍一些基本的统计学概念及其在数据科学中的应用。

总体与样本

在统计学中,首先需要了解的是总体和样本。总体可能是指人数、事物数量或任何用于分析的对象。它指的是总数量,这通常是一个非常大的数据集。

收集整个总体数据的困难包括:耗时多、成本高。因此,在实际操作中,通常采用“样本”来代替总体。样本是从总体中选取的一部分或子集,通过研究这个特定的部分来获取总体的信息。简而言之,总体数据量很大,从中取出一部分信息(样本)进行分析,并得出结论,假设这个结果代表了总体的所有特征。

例如,在选举过程中,所有选民的投票构成了总体。而在选举前后,新闻频道会进行民意调查,这些调查就是样本,它们代表了国家人民的观点。样本结果的好坏取决于样本对总体的代表性。样本必须包含总体的特征,它应该能够代表总体。

变量

变量是可以测量或计数的特征、事物或数字。它们可以是体重、身高、年龄等。变量可以分为数值变量和分类变量。

数值变量:数值变量可以用单位或数字表示。例如,一个班级中学生的体重、身高、年龄等。

分类变量:分类变量可以是人、事物或特征。例如,分析一个班级中学生的发色或血型。

随机变量

随机变量是指具有随机变化的变量。随机变量不能是单一固定值,它会因为不确定性而变化。用概率概念来衡量不确定性。例如,一个教室中学生的身高就是一个随机变量,因为它会随着时间变化,不能是一个确定的值。

随机变量可以分为两种类型:离散随机变量和连续随机变量。

可以计数的随机变量称为离散随机变量,它们之间没有中间值。在数据科学中,如何使用离散随机变量?例如,分析一周内某个体育场馆的人数。如果发现某一天有12000人,这个值就是一个离散随机变量,它是一个确定的数值,不能是11999.50或12000.50,它是一个可计数的值,因此属于离散随机变量。

可以测量并且连续变化的随机变量称为连续随机变量,它们之间有中间值。在数据科学中,如何使用连续随机变量?例如,分析一个班级中学生的体重,就可以表示为连续随机变量。一个学生的体重可能是49公斤,另一个学生的体重可能是55.3公斤,它们是不同的,并且有中间值,因此属于连续随机变量。

收集连续数据的优势在于,从连续形式转换为离散形式时,数据不会丢失。而从离散形式转换为连续形式时,总是会有数据丢失。

数据

数据是来自总体或样本的信息片段。数据可以分为两种类型:定量数据和定性数据。

定量数据:总是代表数字(即数值数据)。这可以是年龄、身高、体重等。从定量数据中得出的平均值或均值非常有用。例如,一个班级中学生的平均体重。

定性数据:总是代表分类数据。这可以是血型、人的地址、人的车辆等。它大多数以文字或字母的形式出现。从定性数据中得出的平均值或均值没有意义。例如,平均血型或平均车辆名称没有意义。

百分位数是一个数字,表示一定百分比的分数低于该数字。它是一个相对度量,并且是基于排名来确定的。

以一个例子来说明百分位数,分析一个月内每个销售代表在纺织品店的销售情况。首先,需要对表格进行排序以便更好地理解。Excel提供了一个预定义的函数来计算百分位数。

百分位数的含义如下,以包含性的百分位数为例:

25th percentile: 25%的销售员销售额低于5500元 50th percentile: 50%的销售员销售额低于8500元 75th percentile: 75%的销售员销售额低于10750元

百分位数是相对于100部分的。如果想把整个销售额分成100部分,那就是百分位数。如果想把整个销售额分成10部分,那就是十分位数。如果想把整个销售额分成4部分,那就是四分位数。

已经介绍了一些基本的统计学概念及其在数据集中的实际应用。感谢阅读!

希望喜欢这篇文章,并增加了对统计学的知识。

欢迎通过 与联系。

想要分享想法?请在下方留言。

Mohamed Illiyas

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485