在机器学习和数据分析领域,集成学习技术因其在提高模型稳定性和预测能力方面的优势而备受青睐。无论是在Kaggle等竞赛还是实际应用中,集成模型都展现出了其独特的价值。本文旨在介绍集成学习的基础概念和思想,帮助开始构建自己的集成模型。
假设想要投资一家公司XYZ,但对其业绩表现并不确定。为了获得更准确的预测,决定咨询不同领域的专家。以下是六位专家的背景和他们过去预测的准确率:
1. XYZ公司的员工:了解公司内部运作,但缺乏对竞争对手创新、技术发展及其对XYZ公司产品影响的宏观视角。过去预测准确率为70%。
2. XYZ公司的财务顾问:对公司在竞争环境中的表现有宏观理解,但对公司内部政策的了解不足。过去预测准确率为75%。
3. 股市交易员:观察了公司过去三年的股价表现,了解季节性趋势和整体市场表现,并形成了对股价变化的强烈直觉。过去预测准确率为70%。
4. 竞争对手公司的员工:了解竞争对手公司的内部运作和即将发生的变化,但缺乏对XYZ公司和外部因素的了解。过去预测准确率为60%。
5. 同一领域的市场研究团队:分析了XYZ公司产品的顾客偏好及其随时间的变化。由于他们处理的是顾客方面,不了解XYZ公司因自身目标变化而带来的变化。过去预测准确率为75%。
6. 社交媒体专家:能帮助了解XYZ公司如何在市场上定位其产品,以及顾客对公司的看法随时间的变化。他不了解任何超出数字营销的细节。过去预测准确率为65%。
如果能够将所有这些信息结合起来,就可以做出一个更明智的决策。在所有六位专家/团队都确认这是一个好决策的情况下(假设所有预测都是相互独立的),得到的综合准确率将是:
1 - 0.30 * 0.25 * 0.30 * 0.40 * 0.25 * 0.35 = 1 - 0.07875 = 99.92125%
当然,这种假设所有预测都是完全独立的极端情况,实际情况中预测之间可能存在相关性。然而,可以看到通过结合不同的预测,可以获得多大的确定性。
集成学习是将不同的学习器(个体模型)结合起来,以提高模型的稳定性和预测能力的艺术。在上述例子中,如何结合所有预测将被称为集成学习。
在本文中,将讨论一些在行业中广泛使用的集成技术。在深入技术之前,让先了解如何获得不同的学习器。模型之间可能因为多种原因而不同,从它们构建的人口基础到用于构建模型的建模技术。以下是模型可能不同的四个主要原因:
任何模型中出现的误差都可以数学上分解为三个组成部分。这些组成部分是:
偏差误差:用于量化预测值与实际值平均差异的程度。高偏差误差意味着有一个表现不佳的模型,它一直在错过重要的趋势。
方差:另一方面,方差量化了对同一观测值的预测彼此之间的差异。高方差模型将在训练人群中过度拟合,并在任何超出训练的观测上表现不佳。
通常,随着模型复杂性的增加,会看到由于模型偏差降低而导致误差减少。然而,这只发生在某个特定点之前。当继续使模型更复杂时,最终会过度拟合模型,因此模型将开始受到高方差的影响。
一个冠军模型应该在这两种类型的误差之间保持平衡。这被称为偏差-方差误差的权衡管理。集成学习是执行这种权衡分析的一种方式。
1. Bagging:Bagging试图在小样本人群中实施相似的学习器,然后取所有预测的平均值。在广义的Bagging中,可以在不同的人群中使用不同的学习器。正如可以预期的,这有助于降低方差误差。