机器学习分类器与回归器概览

机器学习领域,分类器和回归器是两种基本的算法,用于预测数据的标签或连续值。本文将介绍多种分类器和回归器,包括线性模型、变量选择模型、鲁棒回归器以及广义线性模型等。这些模型在不同的参数设置下,可以归入多个类别。

线性分类器

线性分类器是一类基于线性决策边界的分类算法。它们通常用于二分类或多分类问题。以下是一些常见的线性分类器:

  • LogisticRegression:逻辑回归分类器,也称为logit或MaxEnt。
  • LogisticRegressionCV:带有交叉验证的逻辑回归分类器。
  • PassiveAggressiveClassifier:被动攻击分类器。
  • Perceptron:线性感知器分类器
  • RidgeClassifier:使用岭回归的分类器
  • RidgeClassifierCV:带有内置交叉验证的岭回归分类器
  • SGDClassifier:使用随机梯度下降训练的线性分类器,如SVM、逻辑回归等。
  • SGDOneClassSVM:使用随机梯度下降解决线性单类SVM。

这些分类器在参数设置不同的情况下,可以归入多个类别。例如,SGDClassifier可以用于SVM或逻辑回归,具体取决于其参数设置。

经典线性回归器

线性回归器是一类用于预测连续值的算法。它们通常基于最小二乘法,但也可以通过正则化来提高模型的泛化能力。以下是一些常见的线性回归器:

  • LinearRegression:普通最小二乘线性回归。
  • Ridge:带有L2正则化的线性最小二乘回归。
  • RidgeCV:带有内置交叉验证的岭回归。
  • SGDRegressor:通过最小化正则化的经验损失来拟合线性模型

这些回归器在不同的参数设置下,也可以归入多个类别。例如,SGDRegressor可以用于不同的线性模型,具体取决于其正则化参数。

具有变量选择的回归器

变量选择是回归分析中的一个重要问题,旨在从大量候选变量中选择出对响应变量有显著影响的变量。以下是一些具有变量选择能力的回归器

  • ElasticNet:结合L1和L2先验作为正则化项的线性回归。
  • ElasticNetCV:带有迭代拟合的弹性网模型。
  • Lars:最小角回归模型。
  • LarsCV:交叉验证的最小角回归模型。
  • Lasso:带有L1先验作为正则化项的线性模型。
  • LassoCV:带有迭代拟合的Lasso线性模型。
  • LassoLars:使用最小角回归拟合的Lasso模型。
  • LassoLarsCV:使用LARS算法的交叉验证Lasso。
  • LassoLarsIC:使用BIC或AIC进行模型选择的Lasso模型。
  • OrthogonalMatchingPursuit:正交匹配追踪模型。
  • OrthogonalMatchingPursuitCV:交叉验证的正交匹配追踪模型。

这些回归器通过不同的正则化技术,可以在拟合模型的同时进行变量选择。例如,Lasso回归器通过L1正则化来实现变量选择,而ElasticNet回归器则结合了L1和L2正则化。

鲁棒回归器

鲁棒回归器是一类对异常值和噪声具有较强鲁棒性的回归算法。以下是一些常见的鲁棒回归器:

  • HuberRegressor:对异常值具有鲁棒性的L2正则化线性回归模型。
  • QuantileRegressor:预测条件分位数的线性回归模型。
  • RANSACRegressor:随机抽样一致性(RANSAC)算法。
  • TheilSenRegressor:Theil-Sen估计器:鲁棒的多变量回归模型。

这些回归器通过不同的鲁棒性技术,可以在存在异常值和噪声的情况下,仍然获得较好的回归结果。例如,Huber回归器通过Huber损失函数来减少异常值的影响,而RANSAC回归器则通过随机抽样来寻找数据中的一致性。

广义线性模型(GLM)

广义线性模型是一类可以处理响应变量具有非正态分布误差的回归模型。以下是一些常见的广义线性模型:

  • GammaRegressor:具有Gamma分布的广义线性模型。
  • PoissonRegressor:具有Poisson分布的广义线性模型。
  • TweedieRegressor:具有Tweedie分布的广义线性模型

这些模型通过不同的链接函数和分布假设,可以处理不同类型的响应变量。例如,Gamma回归器适用于响应变量具有Gamma分布的情况,而Poisson回归器则适用于响应变量具有Poisson分布的情况。

除了上述模型外,还有一些其他类型的回归器和分类器,如:

  • PassiveAggressiveRegressor:被动攻击回归器。
  • enet_path:使用坐标下降法计算弹性网路径。
  • lars_path:使用LARS算法计算最小角回归或Lasso路径。
  • lars_path_gram:在充分统计模式下的lars_path。
  • lasso_path:使用坐标下降法计算Lasso路径。
  • orthogonal_mp:正交匹配追踪(OMP)。
  • orthogonal_mp_gram:Gram正交匹配追踪(OMP)。
  • ridge_regression:通过正规方程法求解岭方程。

这些模型和算法在不同的应用场景下,可以提供额外的灵活性和功能。例如,enet_path和lars_path可以用于计算弹性网和Lasso的路径,而ridge_regression则可以用于求解岭回归方程。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485