理解机器学习中的偏差-方差权衡

机器学习领域,经常面临一个核心问题:如何确保一个基于有限训练数据构建的模型能够在从未见过的数据上表现良好?这就像学习驾驶,可能在驾校里按照规则驾驶,但当真正上路时,会面临各种驾校里未曾遇到的挑战。机器学习模型也面临同样的问题,试图从有限的数据中抽象出足够通用的模式,以便能够应用于未见过的新数据。

为了从数据中抽象出足够的通用性,需要构建一个尽可能简单的模型,但也不能过于简单。哲学中的奥卡姆剃刀原则告诉,在两种解释中,需要假设最少的那个通常是正确的。在机器学习的背景下,这意味着应该构建一个尽可能简单的模型,但也不能过于简化。例如,在决策树中,通过一系列真或假的问题来构建模型,树的深度表示提出的问题数量。如果两棵树的性能相似,但一棵树的深度为4,另一棵树的深度为6,根据奥卡姆剃刀原则,应该选择深度为4的树,因为它提出了较少的问题,是一个更简单的模型。

如果构建的模型过于复杂,那么可能会遇到问题。如果构建的模型过于简单,那么它可能过于薄弱。那么,在机器学习的背景下,“简单”和“复杂”意味着什么?如何构建一个更简单的模型呢?

想象一下,两个学生正在准备像JEE这样的竞争性考试,核心科目是物理、数学和化学。两个学生对考试有不同的方法,他们有不同的心理模型。学生1通过阅读整个教学大纲、记忆、解决大量不同问题、学习往年试题的模式来准备考试,以确保在3小时内回答一定类型的问题。他基本上只关注通过考试。学生2则非常重视这些科目,他清楚地理解了这些科目的基本原理。他认为,只要基础扎实,就不需要解决成百上千的问题。只要有足够的时间,他就可以利用基础理解来解决问题。

让考虑两种不同的考试场景。场景1:试卷与过去几年的试卷非常相似。在这里,学生1正确解决了很多问题。他的整个记忆方法在这里奏效了,他肯定会通过考试。另一方面,学生2可能解决了所有问题,但时间不够,他不太可能通过考试。场景2:这里NTA(国家测试机构)决定给每个人一个惊喜。试卷完全是新的,有不同的模式,没有重复的问题。看到那张试卷后,学生1完全冻结了。他对该怎么做感到非常困惑。他肯定会失败。另一方面,学生2可以解决问题,因为他的基础很清楚,但他没有足够的时间。在这种情况下,他通过考试的机会也非常小。

现在让观察、分析上述情况,并尝试弄清楚为什么寻求简单性?让思考这两个学生代表的是什么样的模型。学生1代表一个复杂模型。他阅读了整个教学大纲,观看了教程,解决了例子。学生2代表一个简单模型,他只依赖于科目的基本原理。可以观察到,即使时间不足,学生2在两种情况下都能解决问题。而学生1在第二种情况下惨败,因为问题是他从未见过的。这是一个简单模型更具泛化性,可能在不同情况下表现良好的例子。

还可以观察到,学生1使用的阅读材料远远多于学生2。如果学生1设法获得了场景2试卷的来源材料,他就能通过考试。而学生1阅读的材料非常少。可以同意,简单模型所需的训练数据比复杂模型少。学生1的表现取决于会问什么样的问题。而学生2不会在乎试卷,因为他的基础很清楚。简单模型比复杂模型更能应对任何情况。

但简单性也有自己的缺点,正如上面看到的,学生2在两种情况下通过考试的机会非常小,因为给定的时间对他来说不够。他没有进行考试中心的准备。比如一点点记忆,学习新技巧来在更短的时间内解决问题。那么,有什么解决方案可以让两个学生都能在两种情况下通过考试呢?权衡在这里发挥作用。学生1需要少记一些,尝试获得基本的理解,而学生2需要记一些部分,解决问题。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485