统计学被卡尔·皮尔逊称为“科学的语法”。在当今这个数据驱动的时代,经常听到“数据”这个词,随之而来的基本问题包括:数据是什么?数据如何收集?数据如何分析?数据如何解释?这些问题的答案都与“统计学”这个术语紧密相关。统计学是处理数据的基本且重要的工具,它涉及数据的收集、描述、分析和结论。
统计学分为两大类:描述性统计和推断性统计。在描述性统计中,数据通过考虑样本中的总体来总结,通常使用均值或标准差等指标。描述性统计包含四个不同的类别:频率度量、离散度量、中心趋势度量和位置度量。
频率度量基于特定数据发生的次数来定义。离散度量可以基于范围、方差、标准差等来定义。中心趋势度量包括数据的平均值、中位数、众数和偏度。最后,位置度量基于百分位数和四分位数来测量。
在推断性统计中,一旦数据被收集、制表和分析,就会使用推断性统计来得出总结或推断。这些推断是基于抽样变异和观察误差得出的。推断性统计帮助根据样本信息和结论来预测和估计总体的结果。
统计学在日常生活中的各个领域都有应用,用于分析正确的数据。基于解释,发展步骤在私营和公共部门都被采纳。在进行数据分析之前,有几件事情需要记住:定义问题,收集正确的数据,理解数据,清洗数据,分析数据,最后解释结果。
定义问题意味着为组织确定更好的步骤,从过去的数据分析中得出。为了更好的步骤,将有一些目标需要完美地回答以给出良好的解释。问题应该为问题提供潜在的解决方案。基于问题,数据将被收集。因此,定义问题起着重要作用。
例如,在一家公司中,如果员工流失率很高,那么解决方案应该是减少员工离开公司。为此,需要确定基本变量,如员工经验、满意度、晋升、工作时间、等,以便解决问题并提供潜在的解决方案。
数据收集分为两类:原始数据和次级数据。在原始数据中,数据通过问卷调查、发送电子邮件或接触每个人来收集。例如,人口普查。而在次级数据中,它是已经在次级来源如机构或数据库中可用的数据。
在收集新数据之前,确定数据库中已有的现有数据。除此之外,收集满足目标的相关数据。然后组织现有数据和新数据以进行分析。例如,以员工流失为例,需要收集的数据包括公司经验、工作时间、教育资格、家庭距离、旅行小时数、晋升、员工年龄、加薪或提高等,这些数据对于找出员工流失的原因非常重要。可能有一些变量已经在数据库中可用,任何需要的新变量都可以添加。
一旦数据被收集,可能有许多变量直接或间接与目标相关。为此,首先需要研究所有变量,无论是名义上的还是序数上的。在理解数据后准备数据以进行分析。在理解过程中,将了解数据类型、数据中的行和列、缺失的数据、找到独立变量和因变量等。
可能有一些变量与组织的问题无关,但这些变量可以用于未来的分析。理解数据对于找到这些变量更为重要。以员工流失为例,可能与家庭相关的数据,如家庭成员、在前一家公司的经验年数、社会地位等,每个变量都需要理解,以便以这种方式分割数据以回答问题。
数据清洗是修改数据、删除重复变量、在需要时创建虚拟变量、删除与问题无关的不需要的列的过程。如果数据清洗不当,可能会导致模型准确性降低,并可能导致误导性的结论。
一旦数据清洗完成,就可以准备好回答正确问题的数据。数据操作可以通过多种方式进行,如绘制数据、为变量创建透视表、相关性、回归、检测异常值等。在操作阶段,可能需要继续使用现有数据集或删除一些数据集,或者可能需要添加更多数据以回答问题。经过所有这些阶段后,所需的数据将准备好进行分析。
当开始讨论分析时,最重要的是模型选择。选择模型在分析数据和回答目标方面起着重要作用。在分析数据时定义因变量和自变量是一个重要阶段。目前,机器学习技术被用于数据分析,以便可以轻松进行预测和解释。但是,仍然有一些目标可以在进行数据可视化和基本统计分析时直接回答。用于分析数据的工具包括Python、Excel、R编程、SPSS、STATA等。
相关性用于发现两个或更多变量之间的关系或关联。相关性值在-1到+1之间。解释是,如果相关性是+1,则表示强正相关,-1表示强负相关,0表示不存在相关性。相关性在定量和定性数据中都有效。
在回归分析中,当需要发现一个变量对另一个变量的依赖性时,就会使用回归分析。回归值在0和1之间。如果回归值是1,则表示完美拟合,0则表示拟合不好。可以使用回归分析进行预测模型。这也使用定量和定性数据。有两种类型的回归分析:线性回归和多元线性回归。
线性回归有一个因变量和一个自变量。例如,如果价格低,销量就会高。在多元线性回归模型中,它有一个自变量和多个因变量。例如,房子的价格取决于房子的房间数量、每个房间的面积、停车位数量、设施、位置等。