集成模型的深度解析

在构建高精度预测模型的过程中,集成模型扮演着至关重要的角色。实际上,集成模型被认为是构建高准确度预测模型的最有力方法之一。随机抽样聚合(Bagging)和提升(Boosting)算法的可用性进一步增强了这种方法,使其能够产生惊人的准确度水平。因此,下次当构建预测模型时,一定要考虑使用这种算法。肯定会为这个建议而感谢。如果已经掌握了这种方法,那太好了。很想在下面的评论部分听到关于集成模型的经验。

对于其他人,将分享一些关于集成模型最常见的问题。如果想评估一个人对集成模型的知识,可以大胆地问这些问题并检查他/她的了解。此外,这些问题是最简单的,所以不能错过它们!

关于集成模型的常见问题有哪些?

在分析了各种数据科学论坛后,确定了与集成模型相关的5个最常见问题。这些问题对于新接触集成模型的数据科学家来说非常相关。以下是这些问题:

  • 什么是集成模型?
  • 随机抽样聚合、提升和堆叠是什么?
  • 可以集成同一机器学习算法的多个模型吗?
  • 如何识别不同模型的权重?
  • 集成模型的好处是什么?

让详细讨论每个问题。

通过解决一个分类挑战来尝试理解它。问题:为垃圾邮件分类设置规则。解决方案:可以为垃圾邮件分类生成各种规则,让看看其中的一些:

  • 垃圾邮件:总长度少于20个单词;只有图像(促销图像);有特定关键词,如“赚钱和成长”和“减少脂肪”;电子邮件中有更多的拼写错误;

在上面,列出了一些常见的过滤垃圾邮件的规则。认为这些规则单独可以预测正确的类别吗?中的大多数人会说不——这是真的!结合这些规则将提供比单独规则预测更强大的预测。这就是集成模型的原理。集成模型结合了多个“个体”(多样化)模型,并提供更优越的预测能力。如果想将其与现实生活联系起来,一个来自不同背景的人组成的团队更有可能做出比个人更好的决策。在机器学习中也是如此。基本上,集成是一种监督学习技术,用于结合多个弱学习器/模型以产生强学习器。当集成模型具有低相关性时,集成模型的效果会更好。

一个集成方法常用于解决数据科学问题的好例子是随机森林算法(具有多个CART模型)。与单个CART模型相比,它通过分类新对象表现更好,每个树为该类别“投票”,森林选择获得最多票数的分类(在森林中的所有树上)。在回归的情况下,它取不同树的输出的平均值。

也可以参考这篇文章《用简单的英语解释集成学习的基础知识》以获取更多关于集成模型的知识。

让分别看看这些,并尝试理解这些术语之间的区别:

随机抽样聚合(Bagging)是一种集成方法。首先,创建训练数据集的随机样本(训练数据集的子集)。然后,为每个样本构建一个分类器。最后,这些多个分类器的结果通过平均值或多数投票结合起来。随机抽样聚合有助于降低方差误差。

提升提供预测器的顺序学习。第一个预测器在完整数据集上学习,而随后的预测器基于前一个预测器的性能在训练集上学习。它首先对原始数据集进行分类,并给每个观测值分配相等的权重。如果使用第一个学习器预测的类别不正确,则会给未正确分类的观测值更高的权重。作为一个迭代过程,它继续添加分类器学习器,直到达到模型数量或准确度的限制。提升已经显示出比随机抽样聚合更好的预测准确度,但它也倾向于过度拟合训练数据。最常见的提升示例是AdaBoost和梯度提升。也可以查看这些文章以了解更多关于提升算法的信息。

变得更聪明与机器学习 -AdaBoost和梯度提升

学习梯度提升算法以获得更好的预测(带有R代码)

堆叠分为两个阶段。首先,使用多个基分类器来预测类别。其次,一个新的学习器被用来结合他们的预测,目的是减少泛化误差。

是的,可以组合同一机器学习算法的多个模型,但是将不同算法生成的多个预测结合起来通常会给出更好的预测。这是因为它们之间的多样化或独立性质。例如,随机森林、KNN和朴素贝叶斯的预测可以结合起来创建一个比结合三个随机森林模型更强的最终预测集。创建强大集成的关键是模型多样性。两个性质非常相似的技术组成的集成将比更多样化的模型集表现差。

示例:假设有三个模型(A、B和C)。A、B和C的预测准确度分别为85%、80%和55%。但是A和B被发现高度相关,而C与A和B的相关性较小。应该结合A和B吗?不,不应该,因为这些模型高度相关。因此,不会结合这两个,因为这种集成将无助于减少任何泛化误差。更愿意结合A和C或B和C。

集成模型的一个最常见挑战是找到集成基模型的最佳权重。通常,假设所有模型的权重相等,并取预测的平均值。但这是最好的处理方式吗?有各种方法可以找到结合所有基学习器的最佳权重。这些方法提供了关于找到正确权重的公平理解。在下面列出了一些方法:

  • 找到基学习器之间的共线性,并基于此表确定要集成的基模型。然后查看识别出的基模型的交叉验证分数(分数比率)以找到权重。
  • 找到返回基学习器最佳权重的算法。可以参考文章《使用神经网络找到集成学习器的最佳权重》来查看找到最佳权重的方法。
  • 也可以使用方法如:
    • 学习器的前向选择
    • 带替换的选择
    • 集成方法的随机抽样聚合
  • 还可以参考Kaggle/数据科学竞赛的获胜解决方案,以了解处理这个挑战的其他方法。

集成模型有两个主要好处:

  • 更好的预测
  • 更稳定的模型

多个模型的聚合意见比其他模型的噪声更少。在金融中,称之为“多样化”,一个由许多股票组成的混合投资组合将比单独一只股票的变异性要小得多。这也是为什么模型会因为模型集成而变得更好,而不是单独的模型。集成模型的一个警告是过度拟合,尽管随机抽样聚合在很大程度上解决了这个问题。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485