在机器学习领域,模型的性能往往受到数据质量的影响。异常值和过拟合是两个常见的问题,它们可能导致模型的预测结果不准确。异常值是指在数据集中显著偏离其他观测值的数据点,而机器学习模型在面对这些异常值时,可能会产生过拟合现象,即模型过于复杂,对训练数据过度拟合,导致在新的、未见过的数据上表现不佳。
人类在面对异常情况时,会基于过去的经验进行推理,以适应新的情况。然而,机器学习模型则依赖于数据分析,它们缺乏人类的推理能力。当机器学习模型遇到从未见过的异常数据时,它们会尝试吸收这些数据,而不是像人类那样进行推理。这是因为机器学习模型在创造性思维方面存在限制,它们通常只能在数据集的范围内进行思考。
异常值在机器学习中是一个重要的概念。当数据集中出现异常值时,它们会打断数据的常规流程,导致模型的典型思维模式发生改变,从而可能导致过拟合。通过特定的策略,如对数据集进行排序和分组,可以快速发现或检测数据集中的异常值。这种策略使得异常值更加明显,从而可以对其进行处理。
过拟合是指机器学习模型在输入数据中遇到不常见的情况时,产生错误结果的现象。或者,模型可能会强调一些不合逻辑的点。通常,机器比人类更快、更准确,但在推理或演绎方面,计算机却不如人类。尽管计算机使用统计数据,但人类是基于思考的。可以通过推理而不是仅仅接受现状来做出决策。然而,计算机不会思考;相反,它们遵循所谓的“垃圾进,垃圾出”原则。
以一个教育场景为例,假设一所学校旨在创建一个机器学习模型,该模型使用学校数据库中以前学生的考试成绩来预测新学生的毕业成绩。数据集中将包括学生在各种课程中的分数。以一个学生的数据为例,假设这名学生在数据集中已有40门课程的记录。假设这名学生表现良好,在39门课程中的成绩都在90%以上,然后突然在一门课程中不及格,成绩低于10%。这个10%的分数在数据集中作为一个异常值脱颖而出,因为它显著改变了这名学生典型的分布。
这名学生可能在参加这门课程时生病了,这会影响他们的表现。或者,可能是课程讲师错误地计算了学生的分数。人类的思维可能能够处理这个问题。但模型需要的不仅仅是分析数据来克服这个问题。人类可以通过推理来解决这个问题。计算机不能思考。因此,它们接受现状。这有时会显著影响模型的准确性或功能。因此,过拟合问题就出现了。
可以通过从工作中移除异常值来对抗过拟合,因为计算机不能推理,它们会按照数据的原样接受数据。以学校中的学生为例,当40个成绩中有一个成绩低于10%,而其他成绩平均在90%以上时,可以删除它,或者更好的做法是使用其他点的平均值来替换异常值。这可以通过用平均分数替换异常值来实现。如果按照例子进行推理,这应该是正确的结论,但这可能并不适用于所有异常值的情况。
还需要注意的是,一些机器学习模型即使存在异常值也可能表现良好,但其他模型可能会彻底失败。这完全取决于模型的构建方法和设计。令人费解的是,特定的模型即使在存在异常值的情况下也能很好地工作,而其他模型则无法做到。
异常和异常值是否相同?
回答这个问题也很重要。“异常”这个词在数据科学活动中经常使用。大多数时候,它代表不同的信息,与异常值不同。异常值通常数量有限,出现在新的数据集中,这是两者的一个区别,它们相对较少且相隔甚远。
另一方面,异常在数据科学中被定义为可能代表分布或模式的输出,但并不准确地反映数据集。异常更像是可能不是由异常值引起的发现,而异常值是偏离分布的点,可以单独看到。异常值有时可能被误认为是异常,但反之则不总是正确的。
1. 人类利用推理来克服不可预见的情况,并基于过去发生的特定事件得出结论。
2. 当计算机应该学习的分布或数据集中有突出的奇怪输入时,这被称为异常值。
3. 输入数据中的不寻常事件会导致机器学习模型提供虚假结果,即过拟合。或者,模型可能会强调一个不合逻辑的点。
4. 必须记住,尽管一些机器学习模型即使在存在异常值的情况下也可能成功,但其他模型会彻底失败,这取决于模型的构建和设计方式。
5. 虽然通常不是这样,但异常值有时会被误认为是异常。