在机器学习领域,回归算法是一种常用于简单输出预测的算法类型,属于监督学习算法。通过训练机器,使其能够自动化地学习数据之间的关系,并利用这些关系进行预测。当预测输出是一个连续的数值时,称之为回归问题。回归分析通常涉及简单的算法,这些算法在金融、投资等领域广泛应用,并建立单个因变量与多个自变量之间的关系。例如,预测房价或员工薪资等,是最常见的回归问题。
线性回归算法是机器学习中的基础,它假设输入变量之间没有相关性,并且使用单个输入变量来预测一个或多个输出变量。线性回归的数学表达式为:y = b*x + c,其中y是因变量,x是自变量,b是最佳拟合线的斜率,c是截距。如果不存在完全关联因变量和自变量的直线,那么输出可能会有损失,通常损失函数是预测值和实际值之间差的平方。
当使用多个自变量来获取输出时,这种模型被称为多元线性回归。这种模型假设给定的特征与输出之间存在线性关系,这是它的一个限制。
岭回归是线性回归的扩展,它旨在最小化损失,并且使用多元回归数据。它的系数不是通过普通最小二乘法(OLS)估计的,而是通过一个有偏但方差较低的估计器——岭估计器来估计,从而实现系数的收缩。这种模型可以减少模型复杂性。尽管发生了系数收缩,但它们并不会完全降为零,因此最终模型仍然包含所有系数。
LASSO是最小绝对收缩和选择算子的缩写。它通过惩罚系数绝对值之和来最小化预测误差,导致一些变量的回归系数收缩至零。LASSO可以通过LASSO类构建。LASSO的一个优势是它同时进行特征选择,这有助于最小化预测损失。然而,需要注意的是,LASSO不能进行群体选择,并且在饱和之前选择特征。
决策树回归通过不断分割数据集,将其分解成更小的子集,形成具有决策节点和叶节点的树。对于任何新的数据点,其值是通过连接问题来确定的。分割的方式由参数和算法决定,当需要添加的信息达到最小值时停止分割。决策树通常能够产生良好的结果,但如果数据发生轻微变化,整个结构就会发生变化,这意味着模型变得不稳定。
随机森林回归的思想是使用多个决策树来找到输出。涉及的步骤包括:从训练集中随机选择K个数据点,为这些数据点构建一个决策树,选择需要构建的树的数量,并重复上述步骤(作为参数提供),对于一个新的数据点,让每棵树预测给定输入的因变量值,并将预测值的平均值分配给实际的最终输出。
KNN模型可以从KNearestNeighbors类中使用。这些模型简单且易于实现。对于数据集中引入的输入,K最近邻帮助找到训练集中k个最相似的实例。可以作为该输入值的邻居的平均值或中位数。
SVM可以解决线性和非线性回归问题。使用SVR类创建SVM模型。在多维空间中,当有多个变量决定输出时,每个点不再是2D中的点,而是向量。最极端的赋值可以通过这种方法完成。分离类别并给它们赋值。分离是通过最大边际(一个超平面)的概念来实现的。需要注意的是,SVM根本不适合预测大型训练集的值。当数据有更多的噪声时,SVM会失败。