逻辑回归与线性回归模型对比

机器学习领域,逻辑回归和线性回归是两种常用的预测模型。逻辑回归主要用于二分类问题,而线性回归则适用于连续数值的预测。本文将通过一个合成数据集,展示这两种模型如何对数据进行分类和预测。

首先,生成一个包含高斯噪声的直线数据集。这个数据集将用于训练逻辑回归和线性回归模型。数据集中的每个点都有一个特征值X和一个标签y,其中y的值为0或1,表示两个不同的类别。

import matplotlib.pyplot as plt import numpy as np from scipy.special import expit from sklearn.linear_model import LinearRegression, LogisticRegression # 生成合成数据集 xmin, xmax = -5, 5 n_samples = 100 np.random.seed(0) X = np.random.normal(size=n_samples) y = (X > 0).astype(float) X[X > 0] *= 4 X += 0.3 * np.random.normal(size=n_samples) X = X[:, np.newaxis]

接下来,使用逻辑回归模型对数据进行分类。逻辑回归模型通过一个S形的逻辑函数(sigmoid function)将特征值映射到0和1之间的概率值。这个概率值表示样本属于正类(y=1)的可能性。

# 训练逻辑回归模型 clf = LogisticRegression(C=1e5) clf.fit(X, y)

然后,绘制数据点和逻辑回归模型的决策边界。决策边界是一条将数据集分为两个类别的直线。在逻辑回归模型中,这条直线是通过最大化似然函数来确定的。

# 绘制数据点和逻辑回归模型的决策边界 plt.figure(1, figsize=(4, 3)) plt.clf() plt.scatter(X.ravel(), y, label="示例数据", color="black", zorder=20) X_test = np.linspace(-5, 10, 300) loss = expit(X_test * clf.coef_ + clf.intercept_).ravel() plt.plot(X_test, loss, label="逻辑回归模型", color="red", linewidth=3)

为了对比,还使用线性回归模型对数据进行拟合。线性回归模型通过最小化残差平方和来确定一条最佳拟合直线。这条直线可以预测连续数值,但不适用于分类问题。

# 训练线性回归模型 ols = LinearRegression() ols.fit(X, y) plt.plot(X_test, ols.coef_ * X_test + ols.intercept_, label="线性回归模型", linewidth=1) plt.axhline(0.5, color=".5") plt.ylabel("y") plt.xlabel("X") plt.xticks(range(-5, 10)) plt.yticks([0, 0.5, 1]) plt.ylim(-0.25, 1.25) plt.xlim(-4, 10) plt.legend(loc="lower right", fontsize="small") plt.tight_layout() plt.show()

通过对比逻辑回归和线性回归模型的预测结果,可以发现逻辑回归模型在分类问题上具有更好的性能。它能够通过非线性的决策边界将数据集分为两个类别,而线性回归模型则只能通过一条直线进行预测。

此外,逻辑回归模型还具有可解释性高、计算简单等优点。在实际应用中,逻辑回归模型被广泛应用于二分类问题,如垃圾邮件识别、疾病诊断等领域。而线性回归模型则更多地用于连续数值的预测,如房价预测、销售额预测等。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485