支持向量机(SVM)中的正则化参数C

在支持向量机(SVM)模型中，正则化参数C是一个非常重要的超参数，它控制着模型对数据分布的信任程度。C值的大小直接影响模型的泛化能力。

当C值较大时，模型对数据的分布不够信任，因此只考虑靠近分离线的点。这种情况下，模型会更加关注那些距离分离线较近的点，而忽略那些远离分离线的点。

相反，当C值较小时，模型会包含更多的观测值，允许使用所有数据来计算边界。这意味着模型会考虑所有数据点，而不仅仅是那些靠近分离线的点。

下面是一个使用Python和scikit-learn库实现的SVM分类器的代码示例。这个示例展示了如何通过调整C值来观察模型对数据的拟合情况。


import matplotlib.pyplot as plt
import numpy as np
from sklearn import svm

# 创建40个可分离的点
np.random.seed(0)
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
Y = [0] * 20 + [1] * 20

# 图表编号
fignum = 1

# 遍历不同的C值
for name, penalty in [("unreg", 1), ("reg", 0.05)]:
    clf = svm.SVC(kernel="linear", C=penalty)
    clf.fit(X, Y)

    # 获取分离超平面
    w = clf.coef_[0]
    a = -w[0] / w[1]
    xx = np.linspace(-5, 5)
    yy = a * xx - (clf.intercept_[0]) / w[1]

    # 绘制与分离超平面平行的线，这些线通过支持向量（在垂直于超平面的方向上，距离超平面的距离为sqrt(1+a^2)）
    margin = 1 / np.sqrt(np.sum(clf.coef_**2))
    yy_down = yy - np.sqrt(1 + a**2) * margin
    yy_up = yy + np.sqrt(1 + a**2) * margin

    # 绘制线、点和最近向量到平面
    plt.figure(fignum, figsize=(4, 3))
    plt.clf()
    plt.plot(xx, yy, "k-")
    plt.plot(xx, yy_down, "k--")
    plt.plot(xx, yy_up, "k--")
    plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80,
                facecolors="none", zorder=10, edgecolors="k")
    plt.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.get_cmap("RdBu"),
                edgecolors="k")
    plt.axis("tight")
    x_min = -4.8
    x_max = 4.2
    y_min = -6
    y_max = 6
    YY, XX = np.meshgrid(yy, xx)
    xy = np.vstack([XX.ravel(), YY.ravel()]).T
    Z = clf.decision_function(xy).reshape(XX.shape)

    # 将结果放入等高线图中
    plt.contourf(XX, YY, Z, cmap=plt.get_cmap("RdBu"), alpha=0.5, linestyles=["-"])
    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)
    plt.xticks(())
    plt.yticks(())
    fignum = fignum + 1
    plt.show()

在这个示例中，首先创建了40个可分离的点，然后使用不同的C值来训练SVM分类器。通过绘制分离超平面、支持向量和数据点，可以直观地看到不同C值对模型的影响。

当C值较大时，模型会更加关注那些靠近分离线的点，而忽略那些远离分离线的点。这可能导致模型过拟合，即模型在训练数据上表现很好，但在新的、未见过的数据上表现较差。

当C值较小时，模型会包含更多的观测值，允许使用所有数据来计算边界。这有助于提高模型的泛化能力，使其在新的、未见过的数据上表现更好。然而，如果C值过小，模型可能会欠拟合，即模型在训练数据上表现较差，无法捕捉到数据的真实分布。

因此，在实际应用中，需要根据具体问题和数据分布来选择合适的C值。通常，可以通过交叉验证来选择最佳的C值。此外，还可以使用网格搜索等方法来搜索最佳的C值。

支持向量机在不平衡数据集上的应用

本网页介绍了如何在不平衡数据集上使用支持向量机（SVM）进行分类，并展示了如何绘制决策边界。

支持向量回归模型比较

本文介绍了使用不同的核函数进行支持向量回归（SVR）的比较，包括线性核、多项式核和RBF核。

支持向量机(SVM)中的正则化参数C

支持向量机在不平衡数据集上的应用

支持向量回归模型比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

支持向量机(SVM)中的正则化参数C

支持向量机在不平衡数据集上的应用

支持向量回归模型比较

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485