数据科学面试问题解析

数据科学的面试中,面试官会围绕统计学、概率论、线性代数、向量、微积分、机器学习/深度学习数学、Python、面向对象编程概念以及Numpy/Tensor操作等主题提出问题。除此之外,面试官还会询问项目及其目标。简而言之,面试官关注基本概念和项目。

普通最小二乘法(OLS)是什么?为何以及在何处使用它?

普通最小二乘法(OLS)是一种线性回归技术,它帮助估计可能影响输出的未知参数。这种方法依赖于最小化损失函数。损失函数是实际值和预测值之间残差的平方和。残差是目标值和预测值之间的差异。误差或残差是:

Minimize ∑(yi – ŷi)^2

其中 ŷi 是预测值,yi 是实际值。当有多个输入时,使用OLS。这种方法将数据视为矩阵,并使用线性代数操作估计最优系数。

正则化是什么?在哪里使用它?

正则化是一种减少训练模型过拟合的技术。当模型对训练集拟合过度时,会使用这种技术。过拟合发生在模型对训练集表现良好,但对测试集表现不佳时。模型对训练集的误差很小,但对测试集的误差很高。因此,正则化技术通过惩罚损失函数来获得最佳拟合模型。

L1和L2正则化之间的区别是什么?

L1正则化也被称为Lasso回归。这种方法通过添加系数大小的绝对值作为惩罚项来惩罚损失函数。当有许多特征时,Lasso效果很好。这种技术适用于模型选择,因为它通过将系数缩小到零来减少特征,对于不太重要的变量,它选择一些重要的特征。

L2正则化(或岭回归)随着模型复杂度的增加而惩罚模型。正则化参数(lambda)惩罚所有参数(除了截距),以便模型泛化数据并不过度拟合。岭回归将系数的平方大小作为惩罚项添加到损失函数中。当lambda值为零时,它类似于OLS。当lambda值很大时,惩罚会太多,导致欠拟合。此外,岭回归将系数推向较小的值,同时保持非零权重和非稀疏解。由于损失函数中的平方项会放大异常值残差,使L2对异常值敏感,惩罚项通过惩罚权重来纠正这一点。当所有输入特征对输出的影响大致相等时,岭回归表现更好。此外,岭回归还可以学习复杂的数据模式。

R平方是什么?

R平方是一种统计量,显示数据点与拟合回归线的接近程度。它计算由线性模型计算的预测变量变化的百分比。R平方的值在0%到100%之间,其中0表示模型无法解释预测值围绕其均值的变化。此外,100%表示模型可以解释输出数据围绕其均值的全部变异性。简而言之,R平方值越高,模型对数据的拟合越好。

调整R平方是什么?

R平方度量有一些缺点,将在这里解决。问题是,如果向模型中添加无关变量或显著的独立变量或有影响的独立变量,R平方值将始终增加。它永远不会随着新独立变量的添加而减少,无论它可能是有影响的、无影响的还是不显著的变量。因此,需要另一种衡量等效R平方的方法,它对任何无关变量都会对模型进行惩罚。所以,使用一个更好的调整公式来计算调整后的R平方。

  • 普通最小二乘法技术估计未知系数,并依赖于最小化残差。
  • L1和L2正则化分别通过系数的绝对值和平方值来惩罚损失函数。
  • R平方值指示响应围绕其均值的变化。
  • R平方有一些缺点,为了克服这些缺点,使用调整后的R平方。
  • 均方误差计算回归线上的点到数据点的距离。
  • SVR将错误拟合到某个阈值内,而不是最小化它。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485