数据科学中的统计学基础

数据科学是一个跨学科领域，它运用各种算法或技术从数据中提取信息。掌握数据科学不是一蹴而就的事情，它是一个渐进的过程。要成为一名数据科学家，需要掌握多种技能，其中最重要的是统计学和概率论。

可能会问，这些统计学知识在数据科学和现实生活中是如何应用的？本文将介绍一些基本的统计学概念及其在数据科学中的应用。

总体与样本

在统计学中，首先需要了解的是总体和样本。总体可能是指人数、事物数量或任何用于分析的对象。它指的是总数量，这通常是一个非常大的数据集。

收集整个总体数据的困难包括：耗时多、成本高。因此，在实际操作中，通常采用“样本”来代替总体。样本是从总体中选取的一部分或子集，通过研究这个特定的部分来获取总体的信息。简而言之，总体数据量很大，从中取出一部分信息（样本）进行分析，并得出结论，假设这个结果代表了总体的所有特征。

例如，在选举过程中，所有选民的投票构成了总体。而在选举前后，新闻频道会进行民意调查，这些调查就是样本，它们代表了国家人民的观点。样本结果的好坏取决于样本对总体的代表性。样本必须包含总体的特征，它应该能够代表总体。

变量

变量是可以测量或计数的特征、事物或数字。它们可以是体重、身高、年龄等。变量可以分为数值变量和分类变量。

数值变量：数值变量可以用单位或数字表示。例如，一个班级中学生的体重、身高、年龄等。

分类变量：分类变量可以是人、事物或特征。例如，分析一个班级中学生的发色或血型。

随机变量

随机变量是指具有随机变化的变量。随机变量不能是单一固定值，它会因为不确定性而变化。用概率概念来衡量不确定性。例如，一个教室中学生的身高就是一个随机变量，因为它会随着时间变化，不能是一个确定的值。

随机变量可以分为两种类型：离散随机变量和连续随机变量。

可以计数的随机变量称为离散随机变量，它们之间没有中间值。在数据科学中，如何使用离散随机变量？例如，分析一周内某个体育场馆的人数。如果发现某一天有12000人，这个值就是一个离散随机变量，它是一个确定的数值，不能是11999.50或12000.50，它是一个可计数的值，因此属于离散随机变量。

可以测量并且连续变化的随机变量称为连续随机变量，它们之间有中间值。在数据科学中，如何使用连续随机变量？例如，分析一个班级中学生的体重，就可以表示为连续随机变量。一个学生的体重可能是49公斤，另一个学生的体重可能是55.3公斤，它们是不同的，并且有中间值，因此属于连续随机变量。

收集连续数据的优势在于，从连续形式转换为离散形式时，数据不会丢失。而从离散形式转换为连续形式时，总是会有数据丢失。

数据

数据是来自总体或样本的信息片段。数据可以分为两种类型：定量数据和定性数据。

定量数据：总是代表数字（即数值数据）。这可以是年龄、身高、体重等。从定量数据中得出的平均值或均值非常有用。例如，一个班级中学生的平均体重。

定性数据：总是代表分类数据。这可以是血型、人的地址、人的车辆等。它大多数以文字或字母的形式出现。从定性数据中得出的平均值或均值没有意义。例如，平均血型或平均车辆名称没有意义。

百分位数是一个数字，表示一定百分比的分数低于该数字。它是一个相对度量，并且是基于排名来确定的。

以一个例子来说明百分位数，分析一个月内每个销售代表在纺织品店的销售情况。首先，需要对表格进行排序以便更好地理解。Excel提供了一个预定义的函数来计算百分位数。

百分位数的含义如下，以包含性的百分位数为例：


    25th percentile: 25%的销售员销售额低于5500元
    50th percentile: 50%的销售员销售额低于8500元
    75th percentile: 75%的销售员销售额低于10750元

百分位数是相对于100部分的。如果想把整个销售额分成100部分，那就是百分位数。如果想把整个销售额分成10部分，那就是十分位数。如果想把整个销售额分成4部分，那就是四分位数。

已经介绍了一些基本的统计学概念及其在数据集中的实际应用。感谢阅读！

希望喜欢这篇文章，并增加了对统计学的知识。

欢迎通过与联系。

想要分享想法？请在下方留言。

Mohamed Illiyas

数据工程与ETL流程详解

本文介绍了数据工程的基本概念，ETL流程的步骤，以及如何使用Python进行数据提取、转换和加载。

JupyterLab 3.0：数据科学家的下一代交互式编程环境

本文介绍了JupyterLab 3.0，这是一个为数据科学家和开发者设计的下一代交互式编程环境。

数据科学中的统计学基础

总体与样本

变量

随机变量

数据

数据工程与ETL流程详解

JupyterLab 3.0：数据科学家的下一代交互式编程环境

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

数据科学中的统计学基础

总体与样本

变量

随机变量

数据

数据工程与ETL流程详解

JupyterLab 3.0：数据科学家的下一代交互式编程环境

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485