在这篇文章中,将深入探讨如何推导简单逻辑回归模型的最优系数。许多人可能已经熟悉逻辑回归在解决监督分类问题中的极大效用。今天使用的许多复杂算法大多是逻辑回归的高级版本。那么,如何为模型实现逻辑回归呢?对于这些有使用统计软件如R背景的人来说,它只是使用2-3行代码(例如,R中的glm函数)完成的计算。然而,这使得它听起来像一个黑箱。输入数据,一些隐藏的计算发生,得到了可以用来做预测的系数。但数据科学不仅仅是关于编码或得到结果。它也是关于理解数学和理论,解码这些黑箱,并欣赏每一步的计算过程。将在这里尝试做同样的事情:通过统计软件计算逻辑回归最优系数的过程来揭开其神秘面纱。为此,将使用一个非常强大的统计工具,称为最大似然估计(MLE)。有兴趣了解更多关于这个工具的人,可以查看这篇文章。还将通过这篇文章回顾MLE的基础知识。让首先复习逻辑函数及其一些属性。
标准逻辑函数的方程式如下所示:
f(z) = 1 / (1 + e^(-z))
从图形上看,它可以被可视化为:
(提供的图片)
有两个水平渐近线:y = 0 和 y = 1:
在任何提出的模型中,为了预测结果的可能性,变量z需要是输入或特征变量X1, X2, ..., Xp的函数。在逻辑回归中,z通常被表示为输入变量的线性函数,如下:
z = β0 + β1 * X
因此,二元结果变量y = f(z)取正值(1)的概率由下式给出:
对于简单的逻辑回归,只考虑2个参数:β0和β1,因此只有1个特征X。因此,有:
P(Y = 1 | X) = 1 / (1 + e^(-(β0 + β1 * X)))
注意在上面的方程中使用了条件概率的符号。可以将其视为结果变量属于正类(Y = 1)的概率,给定特征(条件是特征的值)X。假设有n个观测值(y1, y2, ..., yn)和(x1, x2, ..., xn)。如何估计β0和β1呢?让首先稍微绕道,使用最大似然估计来处理一个非常简单的例子:硬币投掷的伯努利分布。