数据科学是一个涉及统计分析、计算机科学和领域专业知识的广泛领域。然而,数据科学中使用的底层数学提供了处理和从数据中学习的必备技术和工具。本文将涵盖数据科学所需的数学知识,让开始吧。
掌握统计学概念,如均值、中位数、众数、方差和标准差。理解用于超越收集数据的推断统计学。学习概率、随机变量和概率分布。深入了解线性代数,包括向量、矩阵以及转置和逆等操作。探索微积分主题,如微分、积分及其在数据科学中的应用。
统计学为数据科学提供了初步的数据诊断工具,数据诊断是数据分析、数据收集和数据解释的复杂工具和技术。现在让探索统计学的类型。
这包括一些需要考虑的参数。让探索它们:均值是数据点的算术平均值,定义为给定数据点列表中所有数据点的总和除以数据点的数量。中位数是排序数据集中的中间值。众数是数据集中出现频率最高的值。方差和标准差告诉数据集中数据点的分布情况,它们是数据离散程度的度量。
例如,考虑这个数据集:[2,3,4,4,5,5,7,9] 均值=(2+3+4+4+5+5+7+9)/8 = 4.875 中位数 = 4.5 (4+5)/2 众数= 4
推断统计学提供了超越研究中收集的数据的结论。关键思想是:统计假设是测试关于总体参数的假设。置信区间是预期在总体参数中找到的值的区间。回归分析是对因变量和自变量之间的关系进行建模。
例如,使用t检验来检查样本均值是否与已知的总体均值显著不同。
概率是数据科学中的一个基本概念,涉及不确定性和随机性。这对于理解数据集中的事件和结果至关重要。中心极限定理解释了这一点。二项式、泊松和正态等概率分布对于模拟现实世界现象和进行统计推断至关重要。
离散随机变量是可以取某些特定值的随机变量。例如,教室里的学生数量。连续随机变量的值是不可测量的,连续随机变量的一个例子是两个电话之间的等待时间。例如:一个人的身高。
背后的主要一般性定理是中心极限定理(CLT),它指出大量独立、同分布的随机变量之和的分布接近正态分布,其均值等于随机变量均值的总和,方差等于随机变量方差的总和。
还应该熟悉其他分布,因为二项式、泊松、正态分布等。
除了这些要点之外,了解线性代数对于数据科学家来说也很有用,它使他能够理解数据结构和机器学习算法的基础。向量:一个有序的数字列表。矩阵:一组数字以行和列的形式排列在数组中。矩阵本身就是一个全新的主题,所以如果采纳这个建议,最好学习大部分矩阵;像转置、逆、迹、行列式和矩阵的点积。
微分微积分、积分微积分、最大值、最小值、均值定理、乘积法则、链式法则、泰勒级数、导数、矩阵的梯度、反向传播、梯度下降算法、高阶导数、多元泰勒级数、傅里叶变换、微积分下的曲线下面积。
需要知道如何处理规则物体的角度、测量和比例,并且熟悉多种类型的图表。