多类分类器性能比较

在机器学习领域，选择合适的分类器对于提高模型性能至关重要。本文将通过对比支持向量机(SVM)、L1和L2正则化的逻辑回归、以及高斯过程分类器(GPC)在三类数据集上的表现，来展示不同分类器的性能差异。

首先，使用了一个三类的数据集，并利用支持向量分类器、L1和L2正则化的逻辑回归（多类情况）、以及逻辑回归的一对其余(One-Vs-Rest)版本进行分类。值得注意的是，线性SVM默认情况下不是一个概率分类器，但在此示例中启用了内置的校准选项（probability=True），使其能够输出概率估计。

逻辑回归的一对其余版本并不是一个开箱即用的多类分类器，因此在区分第二类和第三类时，相较于其他估计器会遇到更多的困难。在训练集上的准确率分别为：L1逻辑回归83.3%，L2逻辑回归（多项式）82.7%，L2逻辑回归（OvR）79.3%，线性SVM 82.0%，GPC 82.7%。

以下是实现这些分类器的Python代码示例。首先，导入了必要的库，并加载了鸢尾花数据集，仅取前两个特征以便于可视化。然后，创建了不同的分类器，并计算了每个分类器在训练集上的准确率。最后，使用决策边界显示工具来可视化分类器的预测结果。


import matplotlib.pyplot as plt
import numpy as np
from matplotlib import cm
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC

# 加载数据集
iris = datasets.load_iris()
X = iris.data[:, :2]  # 仅取前两个特征
y = iris.target
n_features = X.shape[1]

# 设置参数
C = 10
kernel = 1.0 * RBF([1.0, 1.0])

# 创建不同的分类器
classifiers = {
    "L1 logistic": LogisticRegression(C=C, penalty="l1", solver="saga", max_iter=10000),
    "L2 logistic (Multinomial)": LogisticRegression(C=C, penalty="l2", solver="saga", max_iter=10000),
    "L2 logistic (OvR)": OneVsRestClassifier(LogisticRegression(C=C, penalty="l2", solver="saga", max_iter=10000)),
    "Linear SVC": SVC(kernel="linear", C=C, probability=True, random_state=0),
    "GPC": GaussianProcessClassifier(kernel),
}

n_classifiers = len(classifiers)
fig, axes = plt.subplots(nrows=n_classifiers, ncols=len(iris.target_names), figsize=(3*2, n_classifiers*2))

for classifier_idx, (name, classifier) in enumerate(classifiers.items()):
    y_pred = classifier.fit(X, y).predict(X)
    accuracy = accuracy_score(y, y_pred)
    print(f"Accuracy (train) for {name}: {accuracy:0.1%}")
    
    for label in np.unique(y):
        disp = DecisionBoundaryDisplay.from_estimator(classifier, X, response_method="predict_proba", class_of_interest=label, ax=axes[classifier_idx, label], vmin=0, vmax=1)
        axes[classifier_idx, label].set_title(f"Class {label}")
        mask_y_pred = y_pred == label
        axes[classifier_idx, label].scatter(X[mask_y_pred, 0], X[mask_y_pred, 1], marker="o", c="w", edgecolor="k")
        axes[classifier_idx, label].set(xticks=(), yticks=())
    axes[classifier_idx, 0].set_ylabel(name)

ax = plt.axes([0.15, 0.04, 0.7, 0.02])
plt.title("Probability")
cb = plt.colorbar(cm.ScalarMappable(norm=None, cmap="viridis"), cax=ax, orientation="horizontal")
plt.show()

通过上述代码，可以直观地比较不同分类器在训练集上的表现。每个分类器的准确率都有所不同，这可能受到多种因素的影响，如正则化强度、核函数的选择等。此外，还可以通过可视化工具来观察分类器的决策边界，从而更深入地理解模型的预测行为。

概率校准方法比较

本文比较了不同的概率校准方法，包括无校准、sigmoid校准和isotonic校准，并使用Brier分数评估了校准后的概率质量。

分类器决策边界的可视化

本文通过可视化不同分类器的决策边界，帮助理解各种机器学习算法在不同数据集上的表现。

多类分类器性能比较

概率校准方法比较

分类器决策边界的可视化

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

多类分类器性能比较

概率校准方法比较

分类器决策边界的可视化

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485