在数据科学和机器学习领域,经常听到分类和回归这两个术语,它们是机器学习的两大支柱。分类任务主要是预测标签,而回归任务则是预测实数值数据。在众多用于分类任务的机器学习算法中,通常会使用朴素贝叶斯、KNN、逻辑回归等。本文将详细讨论逻辑回归的工作原理,包括几何直觉和数学直觉等方面。在深入讨论之前,先简要介绍一下逻辑回归,以便更好地理解。
尽管逻辑回归的名字中包含“回归”,但实际上它是一个分类算法。它是最受欢迎的分类机器学习算法之一,用于解决许多现实世界问题。之所以被称为回归,是因为它的主要假设是找到一条线或平面,能够线性地分隔类别标签。由于它能够线性地分隔数据点,因此被称为回归。从几何角度来看,这个算法非常简单,可以很容易地理解算法的流程。
不会忘记逻辑回归的基本假设:它试图找到一条线或一个平面,能够线性地分隔类别标签。基于这个假设,绘制平面和数据点。想象一下,如果有两个类别的点,如图像中所示,所有红色点是负标签点,所有蓝色点是正标签点,绘制一个平面(如果是二维的)或者一个超平面(如果是N维的)。绘制一个平面π,它线性地分隔数据点。如图像所示,平面上有一个法向量W,垂直于平面。
// 高维平面的方程
plane (π) = W^X + b
// 如果平面通过原点,则 b=0
需要找到或发现W和b,它们对应于平面π,使得平面π分隔正负点。假设取一个数据点Xi,如图像所示,这是查询点,需要找到该点到平面(π)的距离。因此,距离Di写为:
// 点Xi到平面的距离Di
Di = ...
这是点Xi到平面的距离,但如何确定当前点的距离被认为是正数还是负数呢?如图像所示,点Xi的一侧,另一侧有点Xj,有相应的类别标签Y,点Xi到平面的距离是Di,Xj到平面的距离是Dj。因此,采用以下约束:
如何判断某个点是正向预测还是负向预测?让检查一些简化的假设或情况:
从上述情况中,结论是分类器必须预测最大数量的正确预测点和最小数量的错误预测。因此,需要找到那个最优平面,它最大化了正确预测的点数,并具有最小数量的错误点。
通常,数据中也存在异常值,它们会影响模型的性能。让通过一个简单的例子来更好地理解异常值如何影响模型性能。假设有两个平面π1和π2,它们用于分隔两个类别标签的数据点+ve和-ve。如图像所示,平面π1和π2分隔两个类别标签的数据点正数和负数。这些点与平面等距离,如图像所示,有一个异常值存在,它比π1的其他数据点更远,并且比π2的其他数据点更近。
如果计算π1的Yi * W^Xi,那么它将是负数,对于平面π2,它将是正数。因此,根据计算,得出结论,平面π2是最好的拟合平面,而平面π1是一个愚蠢的平面。不要以为在现实中,如果看到平面π1给出了最好的准确性,那么平面π2。π2没有正确分类更多的点,与π1相比。因此,这样的异常值对模型的影响更大。
为了保护模型免受异常值的影响,需要修改最优函数W* = argmax(ΣYi * W^Xi)。将使用Squashing技术。这个想法是:
将使用一些函数在最优方程上,以保护模型免受此类异常值的影响。下面可以看到,将通过应用Squashing技术将最优项转换。
将使用sigmoid(σ(x))函数来优化方程。如果Xi到平面的距离增加,sigmoid函数将该距离压缩到0-1之间的值。它提供了概率解释。
// sigmoid函数
σ(x) = 1 / (1 + e^(-x))
// sigmoid函数的最大值是1
// sigmoid函数的最小值是0
// 如果点Xi到平面的距离是0,那么它的概率将是0.5
在将sigmoid函数应用于最优方程后,函数看起来像这样:
这是最优sigmoid函数,它将帮助保护最优方程免受异常值的影响。
这就是逻辑回归的几何直觉,将进一步在第二部分中解决最优函数,使用一些解释。希望喜欢这篇文章。