单类支持向量机(One-Class SVM)是一种无监督学习算法,它能够学习一个决策函数来识别新数据是否与训练集相似或不同。这种算法常用于异常检测,即识别出与训练数据显著不同的新数据点。下面是一个使用单类SVM进行异常检测的示例,包括数据的生成、模型的训练、预测以及结果的可视化。
首先,需要生成训练数据和测试数据。训练数据用于训练模型,而测试数据则用来评估模型的性能。在这个例子中,生成了100个二维数据点作为训练集,并且生成了一些规则的和异常的新观测数据作为测试集。
import numpy as np
from sklearn import svm
# 生成训练数据
X = 0.3 * np.random.randn(100, 2)
X_train = np.r_[X + 2, X - 2]
# 生成一些规则的新观测数据
X = 0.3 * np.random.randn(20, 2)
X_test = np.r_[X + 2, X - 2]
# 生成一些异常的新观测数据
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
接下来,使用单类SVM模型来训练数据。在这个例子中,使用了径向基函数(RBF)核,这是一种非线性核函数,它能够处理非线性可分的数据。
clf = svm.OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
clf.fit(X_train)
模型训练完成后,使用训练好的模型对测试数据进行预测。预测结果将告诉哪些数据点是规则的,哪些是异常的。
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)
n_error_train = y_pred_train[y_pred_train == -1].size
n_error_test = y_pred_test[y_pred_test == -1].size
n_error_outliers = y_pred_outliers[y_pred_outliers == 1].size
最后,使用matplotlib库来可视化模型的决策边界以及训练数据、规则的新观测数据和异常的新观测数据。这有助于直观地理解模型是如何区分规则数据和异常数据的。
import matplotlib.pyplot as plt
from sklearn.inspection import DecisionBoundaryDisplay
_, ax = plt.subplots()
# 生成网格以显示边界
xx, yy = np.meshgrid(np.linspace(-5, 5, 10), np.linspace(-5, 5, 10))
X = np.concatenate([xx.reshape(-1, 1), yy.reshape(-1, 1)], axis=1)
DecisionBoundaryDisplay.from_estimator(clf, X, response_method="decision_function", plot_method="contourf", ax=ax, cmap="PuBu")
DecisionBoundaryDisplay.from_estimator(clf, X, response_method="decision_function", plot_method="contourf", ax=ax, levels=[0, 10000], colors="palevioletred")
DecisionBoundaryDisplay.from_estimator(clf, X, response_method="decision_function", plot_method="contour", ax=ax, levels=[0], colors="darkred", linewidths=2)
s = 40
b1 = ax.scatter(X_train[:, 0], X_train[:, 1], c="white", s=s, edgecolors="k")
b2 = ax.scatter(X_test[:, 0], X_test[:, 1], c="blueviolet", s=s, edgecolors="k")
c = ax.scatter(X_outliers[:, 0], X_outliers[:, 1], c="gold", s=s, edgecolors="k")
plt.legend([mlines.Line2D([], [], color="darkred"), b1, b2, c], ["learned frontier", "training observations", "new regular observations", "new abnormal observations"], loc="upper left", prop=matplotlib.font_manager.FontProperties(size=11))
ax.set(xlabel=f"error train: {n_error_train}/200 ; errors novel regular: {n_error_test}/40 ; errors novel abnormal: {n_error_outliers}/40", title="Novelty Detection", xlim=(-5, 5), ylim=(-5, 5))
plt.show()