学习曲线与模型可扩展性分析

在本例中，将展示如何利用LearningCurveDisplay类轻松绘制学习曲线。此外，还将对朴素贝叶斯和SVM分类器获得的学习曲线进行解释。然后，将探索并得出关于这些预测模型可扩展性的一些结论，通过观察它们的计算成本而不仅仅是它们的统计准确性。

学习曲线

学习曲线展示了在训练过程中添加更多样本的效果。这种效果通过检查模型的统计性能来描绘，即训练得分和测试得分。在这里，计算了使用数字数据集的朴素贝叶斯分类器和带有RBF核的SVM分类器的学习曲线。


from sklearn.datasets import load_digits
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
X, y = load_digits(return_X_y=True)
naive_bayes = GaussianNB()
svc = SVC(kernel="rbf", gamma=0.001)

from_estimator方法显示了给定数据集和预测模型的学习曲线。为了估计得分的不确定性，此方法使用交叉验证过程。


import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import LearningCurveDisplay, ShuffleSplit
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(10, 6), sharey=True)
common_params = {
    "X": X,
    "y": y,
    "train_sizes": np.linspace(0.1, 1.0, 5),
    "cv": ShuffleSplit(n_splits=50, test_size=0.2, random_state=0),
    "score_type": "both",
    "n_jobs": 4,
    "line_kw": {"marker": "o"},
    "std_display_style": "fill_between",
    "score_name": "Accuracy",
}
for ax_idx, estimator in enumerate([naive_bayes, svc]):
    LearningCurveDisplay.from_estimator(estimator, **common_params, ax=ax[ax_idx])
    handles, label = ax[ax_idx].get_legend_handles_labels()
    ax[ax_idx].legend(handles[:2], ["Training Score", "Test Score"])
    ax[ax_idx].set_title(f"Learning Curve for {estimator.__class__.__name__}")

首先分析朴素贝叶斯分类器的学习曲线。其形状在更复杂的数据集中很常见：当使用少量样本进行训练时，训练得分非常高，并且随着样本数量的增加而降低，而测试得分在开始时非常低，然后随着添加样本而增加。当所有样本都用于训练时，训练和测试得分变得更加真实。

还看到了带有RBF核的SVM分类器的典型学习曲线。无论训练集的大小如何，训练得分都保持很高。另一方面，测试得分随着训练数据集的大小而增加。实际上，它增加到一个点，达到一个平台。观察到这样的平台表明，获取新数据来训练模型可能没有用，因为模型的泛化性能将不再增加。

复杂性分析

除了这些学习曲线外，还可以查看预测模型在训练和评分时间方面的可扩展性。LearningCurveDisplay类不提供这些信息。需要使用learning_curve函数并手动进行绘图。


from sklearn.model_selection import learning_curve
common_params = {
    "X": X,
    "y": y,
    "train_sizes": np.linspace(0.1, 1.0, 5),
    "cv": ShuffleSplit(n_splits=50, test_size=0.2, random_state=0),
    "n_jobs": 4,
    "return_times": True,
}
train_sizes, _, test_scores_nb, fit_times_nb, score_times_nb = learning_curve(naive_bayes, **common_params)
train_sizes, _, test_scores_svm, fit_times_svm, score_times_svm = learning_curve(svc, **common_params)

可以看到SVM和朴素贝叶斯分类器的可扩展性非常不同。SVM分类器在拟合和评分时间上的复杂性随着样本数量的增加而迅速增加。实际上，已知该分类器的拟合时间复杂度与样本数量的平方以上，这使得它很难扩展到拥有超过几万个样本的数据集。相比之下，朴素贝叶斯分类器的可扩展性更好，拟合和评分时间的复杂度更低。

随后，可以检查增加训练时间和交叉验证得分之间的权衡。


fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(16, 6))
for ax_idx, (fit_times, test_scores, estimator) in enumerate(zip([fit_times_nb, fit_times_svm], [test_scores_nb, test_scores_svm], [naive_bayes, svc])):
    ax[ax_idx].plot(fit_times.mean(axis=1), test_scores.mean(axis=1), "o-")
    ax[ax_idx].fill_between(fit_times.mean(axis=1), test_scores.mean(axis=1) - test_scores.std(axis=1), test_scores.mean(axis=1) + test_scores.std(axis=1), alpha=0.3)
    ax[ax_idx].set_ylabel("Accuracy")
    ax[ax_idx].set_xlabel("Fit time (s)")
    ax[ax_idx].set_title(f"Performance of the {estimator.__class__.__name__} classifier")
plt.show()

在这些图表中，可以寻找交叉验证得分不再增加的拐点，而只有训练时间增加。

脚本总运行时间：

SVC的正则化参数缩放
概率校准曲线
ROC曲线与可视化API
带有交叉验证的接收者操作特征（ROC）

模型复杂度与交叉验证得分的平衡

本网页探讨了如何在模型复杂度和交叉验证得分之间找到平衡，通过调整PCA组件的数量来实现。

多指标参数搜索与评估

本文介绍了如何使用scikit-learn库中的GridSearchCV进行多指标参数搜索，并通过图形化展示评估结果。

学习曲线与模型可扩展性分析

学习曲线

复杂性分析

脚本总运行时间：

模型复杂度与交叉验证得分的平衡

多指标参数搜索与评估

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

学习曲线与模型可扩展性分析

学习曲线

复杂性分析

脚本总运行时间：

模型复杂度与交叉验证得分的平衡

多指标参数搜索与评估

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485