线性回归是一种统计方法,它假设输入变量和输出变量之间存在线性关系。在给出的例子中,可以看到预算是输入变量“x”,而销售额是输出变量“y”。在这个例子中,线性回归产生了一个线性模型(蓝色),它假设输入变量“预算”和输出变量“销售额”之间存在线性关系。
然而,当转向另一个例子时,情况就有所不同了。这里有一群人和他们相应的体重,并且他们不是普通的人,而是“朋友”。可以看到,已经列出了所有朋友角色的大致体重。Monica、Phoebe和Rachel的体重似乎偏低。同样,Chandler、Joey和Ross的体重较高。注意有一个名为“肥胖”的第三列,它有两个选项0或1。这里,0表示相应的人不肥胖(超重)。另一方面,1表示他或她肥胖。因此,在所有的朋友中,Chandler和Joey似乎稍微超重。如果将这些信息绘制在图表上,会看到一个类似这样的图形。
由于两个类别(肥胖和非肥胖),图表中的数据点只有0和1的值。否可以像早期线性回归的例子那样在这个数据集上应用线性回归呢?也许可以。可以假设x轴和y轴之间可能存在线性关系。然而,当尝试创建线性模型时,可以很快发现模型不能准确代表该数据集。
首先,线性模型负责产生太多的残差/误差,因为预测线和数据集中的各个数据点之间的距离太高。其次,还可以分析这个线性方程预测负轴是没有意义的。体重有负值是没有意义的。同样,y轴只包含以肥胖和非肥胖形式的两个类别。因此,y轴的负轴也没有意义。因此,可以安全地假设线性模型不能准确模拟这样的数据集。
既然确定需要比线性模型更好的选择,引入了逻辑模型的概念。与直接建模y或响应不同,逻辑回归模型预测y属于特定类别的概率。因此,在肥胖例子中,有人可能会预测,对于任何体重概率大于0.5的个体,肥胖是“是”。如果采取更保守的方法,也可以降低阈值,使得体重概率大于0.1将被称为肥胖。
在线性模型中,考虑使用线性回归线以方程y = mx + b的形式表示这些概率。然而,在逻辑模型中,使用逻辑函数或S形函数来模拟数据。从数学上讲,逻辑模型可以由以下方程表示。
p(x) = 1 / (1 + e^(-x))
经过一些调整,得到了这个方程。当绘制出相应的S形函数图时,会得到类似这样的东西。
注意x轴从负无穷延伸到正无穷,而y轴只包含0和1。这意味着S形函数将x轴的值挤压在0和1之间(不管x轴的数字有多大)。这是因为S形图在y = 1线处创建了一个渐近线,当值接近正无穷时。同样,图表也在y = 0线处制作渐近线。这意味着,当x轴值趋向负无穷时,函数的相应值将趋向于零。所以现在当回头看肥胖数据时,可以直观地说,这些数据需要一个S形函数来正确表示这些数据点。但如何实现这一点呢?不会随意画一条曲线,并假设它是最佳拟合。在线性模型中没有遵循这种方法。记住,在线性模型中,倾向于找到具有最小误差/残差的线。因此,在逻辑回归中,也需要找到一种方法来最小化错误,以便数据点能够被S形函数正确表示。那么认为需要做什么来实现这一点呢?
将使用最大似然的概念。但在深入似然概念之前,想先介绍另一个概念,称为“赔率”。从数学上讲,赔率可以被描述为事件发生概率与事件不发生概率的比率。假设有像这样的S形函数方程。经过一些调整,可以得到一个看起来像这样的方程。注意,在方程的左侧,得到了事件发生概率与不发生概率的比率,这也被称为赔率。假设告诉,阿森纳足球俱乐部下赛季晋级欧洲冠军联赛的赔率是5比3。这意味着在5次机会中,球队将晋级,而在三次机会中他们将不会晋级。这意味着赔率对他们有利,而不是对他们不利。
但让暂时退一步,重新思考为什么在查看逻辑回归时计算赔率。结果发现,计算赔率是为了得到一个叫做对数赔率或对数几率的东西。对数几率不过是赔率的自然对数,可以通过对前一个方程的两边取对数来实现。
现在已经找到了一种找到对数赔率的方法,终于可以深入最大似然的概念了。
将继续在即将到来的文章中深入探讨最大似然的概念。
结语:线性回归不能准确模拟分类数据。逻辑回归的思想是在处理分类数据时应用。逻辑回归用于分类问题。它通过所谓的“最大似然”来拟合曲线。希望喜欢关于线性回归的文章。阅读博客上的更多文章。
|