PCA与逻辑回归的管道化处理

在机器学习中,降维和分类是两个常见的任务。主成分分析(PCA)是一种无监督的降维技术,而逻辑回归则是一种用于分类的监督学习算法。本文将介绍如何将这两种技术结合起来,通过管道化的方式进行数据的维度降低和分类预测。

使用GridSearchCV来寻找PCA降维的最佳参数。最佳参数(CV分数=0.874)为:{'logistic__C': np.float64(21.54434690031882), 'pca__n_components': 60}。这种结合使用PCA和逻辑回归的方法,可以有效地提高模型的预测性能。

代码实现

以下是使用Python和scikit-learn库实现PCA和逻辑回归管道化的代码示例。

import matplotlib.pyplot as plt import numpy as np import polars as pl from sklearn import datasets from sklearn.decomposition import PCA from sklearn.linear_model import LogisticRegression from sklearn.model_selection import GridSearchCV from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler # 定义一个管道来搜索PCA截断和分类器正则化的最佳组合 pca = PCA() # 定义一个标准缩放器来归一化输入 scaler = StandardScaler() # 设置容忍度为一个较大的值以使示例更快 logistic = LogisticRegression(max_iter=10000, tol=0.1) pipe = Pipeline(steps=[("scaler", scaler), ("pca", pca), ("logistic", logistic)]) X_digits, y_digits = datasets.load_digits(return_X_y=True) # 可以使用'__'分隔的参数名称来设置管道的参数: param_grid = { "pca__n_components": [5, 15, 30, 45, 60], "logistic__C": np.logspace(-4, 4, 4), } search = GridSearchCV(pipe, param_grid, n_jobs=2) search.fit(X_digits, y_digits) print("最佳参数 (CV分数=%0.3f):" % search.best_score_) print(search.best_params_) # 绘制PCA谱图 pca.fit(X_digits) fig, (ax0, ax1) = plt.subplots(nrows=2, sharex=True, figsize=(6, 6)) ax0.plot(np.arange(1, pca.n_components_+1), pca.explained_variance_ratio_, "+", linewidth=2) ax0.set_ylabel("PCA解释方差比率") ax0.axvline(search.best_estimator_.named_steps["pca"].n_components, linestyle=":", label="选择的n_components") ax0.legend(prop=dict(size=12)) # 对于每个组件数量,找到最佳分类器结果 components_col = "param_pca__n_components" is_max_test_score = pl.col("mean_test_score") == pl.col("mean_test_score").max() best_clfs = (pl.LazyFrame(search.cv_results_).filter( is_max_test_score.over(components_col)).unique(components_col).sort( components_col).collect()) ax1.errorbar(best_clfs[components_col], best_clfs["mean_test_score"], yerr=best_clfs["std_test_score"]) ax1.set_ylabel("分类准确率 (验证)") ax1.set_xlabel("n_components") plt.xlim(-1, 70) plt.tight_layout() plt.show() # 脚本总运行时间: # (0分钟 1.042秒)

通过上述代码,首先导入了必要的库,然后定义了一个PCA对象和一个标准缩放器。接着,设置了逻辑回归的参数,并创建了一个管道,该管道包括数据的标准化、PCA降维和逻辑回归分类。

使用GridSearchCV来搜索PCA的组件数量和逻辑回归的正则化参数C的最佳组合。在找到最佳参数后,使用这些参数来训练模型,并打印出最佳参数和对应的CV分数。

最后,绘制了PCA的谱图,展示了不同组件数量下的解释方差比率,并找到了每个组件数量下的最佳分类器结果。通过这些结果,可以更直观地了解PCA降维对模型性能的影响。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485