线性回归模型分析

线性回归是一种预测分析方法,用于估计因变量(Y)与一个或多个自变量(X)之间的关系。在本分析中,关注特征1和特征2对目标变量Y的影响。尽管特征2在完整模型中具有较大的系数,但当仅考虑特征1时,它对Y的贡献并不显著。

数据集加载与模型训练

首先加载了糖尿病数据集,这是一个常用的回归分析数据集。通过选择数据集中的前两个特征(X1和X2),将它们分别用于训练和测试线性回归模型。

import numpy as np from sklearn import datasets X, y = datasets.load_diabetes(return_X_y=True) indices = (0, 1) X_train = X[:-20, indices] X_test = X[-20:, indices] y_train = y[:-20] y_test = y[-20:]

接下来,使用scikit-learn库中的LinearRegression类来拟合一个线性回归模型。这个模型将帮助理解特征1和特征2如何共同影响目标变量Y。

from sklearn import linear_model ols = linear_model.LinearRegression() ols.fit(X_train, y_train)

模型可视化

为了更直观地理解模型,从三个不同的角度绘制了图形。这些图形展示了训练数据点以及由线性回归模型预测的平面。通过观察这些图形,可以更清楚地看到特征1和特征2对Y的影响。

import matplotlib.pyplot as plt import mpl_toolkits.mplot3d def plot_figs(fig_num, elev, azim, X_train, clf): fig = plt.figure(fig_num, figsize=(4, 3)) plt.clf() ax = fig.add_subplot(111, projection='3d', elev=elev, azim=azim) ax.scatter(X_train[:, 0], X_train[:, 1], y_train, c='k', marker='+') ax.plot_surface(np.array([[-0.1, -0.1], [0.15, 0.15]]), np.array([[-0.1, 0.15], [-0.1, 0.15]]), clf.predict(np.array([[-0.1, -0.1, 0.15, 0.15], [-0.1, 0.15, -0.1, 0.15]]).T).reshape((2, 2)), alpha=0.5) ax.set_xlabel("X_1") ax.set_ylabel("X_2") ax.set_zlabel("Y") ax.xaxis.set_ticklabels([]) ax.yaxis.set_ticklabels([]) ax.zaxis.set_ticklabels([]) elev = 43.5 azim = -110 plot_figs(1, elev, azim, X_train, ols) elev = -0.5 azim = 0 plot_figs(2, elev, azim, X_train, ols) elev = -0.5 azim = 90 plot_figs(3, elev, azim, X_train, ols) plt.show()

通过上述代码,成功地从不同角度可视化了线性回归模型。这些图形不仅展示了数据点的分布,还展示了模型预测的平面,从而帮助更深入地理解特征与目标变量之间的关系。

运行时间

整个脚本的运行时间非常短,仅为0.194秒,这表明模型训练和可视化过程非常高效。

如果对其他数据分析方法感兴趣,可以参考以下相关示例:

  • PCA示例与鸢尾花数据集
  • K-均值聚类
  • 逻辑函数
  • 鸢尾花数据集
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485