分类器概率可视化

在机器学习领域，分类器的性能评估是至关重要的。本文将介绍如何使用不同的分类器对一个三类数据集进行分类，并通过可视化手段展示分类的概率。选用的数据集是著名的鸢尾花数据集，它包含三个类别，将使用支持向量机、L1和L2正则化的逻辑回归、以及高斯过程分类器来进行分类。

线性支持向量分类器（Linear SVC）默认情况下不是一个概率分类器，但在这个例子中启用了内置的概率校准选项（probability=True）。逻辑回归的One-Vs-Rest版本并不是一个开箱即用的多类分类器，因此在分离类别2和3时比其他估计器有更多的困难。

以下是各个分类器在训练集上的准确率：L1逻辑回归为83.3%，L2逻辑回归（多项式）为82.7%，L2逻辑回归（OvR）为79.3%，线性SVC为82.0%，高斯过程分类（GPC）为82.7%。

为了实现这一可视化，首先导入了必要的库，包括matplotlib用于绘图，numpy用于数值计算，以及scikit-learn中的多个模块用于数据处理和分类器的创建。使用了iris数据集，并仅取前两个特征以便于可视化。


import matplotlib.pyplot as plt
import numpy as np
from matplotlib import cm
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC

iris = datasets.load_iris()
X = iris.data[:, :2]  # 只取前两个特征用于可视化
y = iris.target
n_features = X.shape[1]
C = 10
kernel = 1.0 * RBF([1.0, 1.0])  # 用于GPC

# 创建不同的分类器
classifiers = {
    "L1逻辑回归": LogisticRegression(C=C, penalty="l1", solver="saga", max_iter=10000),
    "L2逻辑回归（多项式）": LogisticRegression(C=C, penalty="l2", solver="saga", max_iter=10000),
    "L2逻辑回归（OvR）": OneVsRestClassifier(LogisticRegression(C=C, penalty="l2", solver="saga", max_iter=10000)),
    "线性SVC": SVC(kernel="linear", C=C, probability=True, random_state=0),
    "GPC": GaussianProcessClassifier(kernel),
}
n_classifiers = len(classifiers)
fig, axes = plt.subplots(nrows=n_classifiers, ncols=len(iris.target_names), figsize=(3*2, n_classifiers*2))

for classifier_idx, (name, classifier) in enumerate(classifiers.items()):
    y_pred = classifier.fit(X, y).predict(X)
    accuracy = accuracy_score(y, y_pred)
    print(f"Accuracy (train) for {name}: {accuracy:0.1%}")
    
    for label in np.unique(y):
        # 绘制分类器提供的概率估计
        disp = DecisionBoundaryDisplay.from_estimator(classifier, X, response_method="predict_proba", class_of_interest=label, ax=axes[classifier_idx, label], vmin=0, vmax=1)
        axes[classifier_idx, label].set_title(f"Class {label}")
        # 绘制被预测为给定类别的数据
        mask_y_pred = y_pred == label
        axes[classifier_idx, label].scatter(X[mask_y_pred, 0], X[mask_y_pred, 1], marker="o", c="w", edgecolor="k")
        axes[classifier_idx, label].set(xticks=(), yticks=())
    axes[classifier_idx, 0].set_ylabel(name)
ax = plt.axes([0.15, 0.04, 0.7, 0.02])
plt.title("Probability")
cb = plt.colorbar(cm.ScalarMappable(norm=None, cmap="viridis"), cax=ax, orientation="horizontal")
plt.show()

在上述代码中，首先加载了iris数据集，并仅选择了前两个特征以便于在二维平面上进行可视化。然后，创建了多个分类器，并为每个分类器绘制了决策边界。每个分类器的准确率也被计算并打印出来。最后，使用matplotlib的colorbar功能添加了一个颜色条，以表示概率的大小。

通过这种可视化方法，可以直观地比较不同分类器的性能，以及它们在数据空间中的决策边界。这有助于理解不同分类器在处理特定数据集时的优缺点。

分类器的概率校准

本文介绍了如何对分类器进行概率校准，并通过Brier分数评估校准后的概率质量。比较了高斯朴素贝叶斯分类器在未校准、sigmoid校准和等温校准下的性能。

机器学习分类器比较

本网页展示了在scikit-learn库中不同分类器在合成数据集上的表现，包括决策边界的可视化和分类准确度的比较。

分类器概率可视化

分类器的概率校准

机器学习分类器比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

分类器概率可视化

分类器的概率校准

机器学习分类器比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485