在数据科学领域,掌握统计学的核心概念至关重要。本文将带深入了解这些概念,包括参数与统计量的区别、统计学的类型、数据类型和测量水平、商业决策的关键时刻、中心极限定理、概率分布、图形表示以及假设检验。
参数与统计量的区别
在日常对话中,经常提到总体和样本。因此,了解用于描述总体和样本的术语非常重要。参数是描述总体数据的数值,而统计量是描述样本数据的数值。
统计学的类型
根据维基百科的定义,统计学是“涉及数据收集、组织、分析、解释和呈现的学科”。这意味着,作为统计分析的一部分,通过可视化或数学解释来收集、组织并从数据中提取有意义的见解。统计学大致分为两类:描述性统计和推断性统计。
数据类型和测量水平
在更高层次上,数据被分为两类:定性数据和定量数据。定性数据是非数值的,例如眼睛颜色、汽车品牌、城市等。另一方面,定量数据是数值的,它又分为连续数据和离散数据。连续数据可以以小数格式表示,例如身高、体重、时间、距离等。离散数据不能以小数格式表示,例如笔记本电脑的数量、班级中学生的数量。
商业决策的关键时刻
有四个商业决策的关键时刻,帮助理解数据。这些包括中心趋势的度量(也称为第一商业决策时刻)、离散度的度量(也称为第二商业决策时刻)、偏度(也称为第三商业决策时刻)和峰度(也称为第四商业决策时刻)。
中心极限定理(CLT)
通常不分析整个总体数据,而是取出样本进行分析。抽样的问题在于“样本均值是随机变量——不同样本会有所不同”。抽取的随机样本永远不可能是总体的确切代表。这种现象被称为样本变异。为了消除样本变异,使用中心极限定理。