在数据科学领域,机器学习和统计建模是两种常用的数据分析方法。尽管它们的目标相似——都是从数据中学习,但它们在实现方式、数据处理量和人类参与度上存在差异。本文将探讨这两种方法的不同之处,以帮助读者更好地理解它们各自的优势和适用场景。
首先,来定义这两种方法。机器学习是一种算法,它能够从数据中学习,而不需要依赖于基于规则的编程。相比之下,统计建模则是变量之间关系的数学方程式的形式化。这两种方法虽然在目标上相同,但在定义和实际应用中有明显的区别。
在商业案例中,可以看到一个明显的例子,区分了这两种算法。例如,电信公司可能需要了解一段时间内客户流失的风险水平。在这个案例中,有两个驱动因素——A和B。通过观察下面的图表,可以了解统计模型和机器学习算法之间的差异。
从图表中可以看到,统计模型试图在分类模型问题中得到一个简单的边界公式。这里看到一个非线性边界,它在一定程度上将高风险人群和低风险人群分开。然而,当看到机器学习算法生成的轮廓时,会发现统计建模在这个问题上与机器学习算法相比并不具有可比性。机器学习的轮廓似乎能够捕捉到任何线性或连续性边界之外的所有模式。这就是机器学习能为做的事情。
如果这还不够鼓舞人心,机器学习算法还被用于YouTube/Google等推荐引擎中,它们可以在一秒钟内处理数万亿次观察,以得出几乎完美的推荐。即使使用16GB RAM的笔记本电脑,每天也能处理数百万行数据和数千个参数,并在不超过30分钟内构建一个完整的模型。另一方面,统计模型需要超级计算机来运行百万次观察和千个参数。
尽管机器学习和统计建模在输出上有明显的差异,但让了解这两种范式之间的差异,尽管它们几乎做着相似的工作:
它们属于不同的学派:机器学习是计算机科学和人工智能的一个子领域,它处理的是构建可以从数据中学习的系统,而不是明确的编程指令。统计建模是数学的一个子领域,它处理的是寻找变量之间的关系以预测结果。
它们在不同的时代出现:统计建模已经存在了几个世纪。然而,机器学习是一个非常新的发展。它出现在1990年代,随着数字化和廉价计算能力的稳步进步,数据科学家停止构建完成的模型,而是训练计算机这样做。现在世界正沉浸在大数据的不可管理的体积和复杂性中,这增加了机器学习的潜力——以及对它的需求。
它们涉及的假设程度:统计建模工作在许多假设上。例如,线性回归假设:
- 独立变量和因变量之间的线性关系
- 同方差性
- 每个因变量值的误差均值为零
- 观察结果的独立性
- 每个因变量值的误差正态分布
类似地,逻辑回归有它自己的一组假设。即使是非线性模型也必须遵守连续的分割边界。机器学习算法确实假设了一些这些,但总的来说,它们不受这些假设的约束。使用机器学习算法的最大优势是,可能没有连续的边界,如上述案例所示。此外,不需要在机器学习算法中指定因变量或独立变量的分布。
它们处理的数据类型:机器学习算法是广泛的工具。在线学习工具可以实时预测数据。这些工具能够一次学习数万亿次观察。它们同时进行预测和学习。其他算法,如随机森林和梯度提升,也非常适合处理大数据。机器学习在处理宽(高属性数)和深(高观察数)的数据方面做得很好。然而,统计建模通常适用于较小的数据和较少属性的数据,否则它们最终会过拟合。
命名约定:以下是几乎指代相同事物的一些名称:
公式化:即使机器学习和统计建模的最终目标相同,但两者的公式化方式有显著差异。
- 在统计模型中,基本上尝试估计函数f:
因变量 (Y) = f(自变量) + 误差函数
- 机器学习去掉了方程中的确定性函数“f”。它简单地变成了:
输出(Y) ----- > 输入 (X)
- 它将尝试在n维(n是属性的数量)中找到X的口袋,其中Y的出现显著不同。