异常检测:孤立森林示例

孤立森林是一种集成学习算法,用于异常检测。它通过递归随机划分数据来“隔离”观测值,这些划分可以由树结构表示。对于异常值,所需的划分次数较少,而对于正常值则较多。本文将展示如何使用孤立森林对一个玩具数据集进行训练,并以两种方式可视化其决策边界。

数据生成

通过随机抽样标准正态分布生成两个簇(每个簇包含一定数量的样本)。其中一个簇是球形的,另一个则轻微变形。为了与孤立森林的符号保持一致,将内围点(即高斯簇)分配一个真实标签1,而将异常值(通过numpy.random.uniform创建)分配标签-1。

import numpy as np from sklearn.model_selection import train_test_split n_samples, n_outliers = 120, 40 rng = np.random.RandomState(0) covariance = np.array([[0.5, -0.1], [0.7, 0.4]]) cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2]) cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2]) outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2)) X = np.concatenate([cluster_1, cluster_2, outliers]) y = np.concatenate([np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)]) X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

可以可视化生成的簇:

import matplotlib.pyplot as plt scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k") handles, labels = scatter.legend_elements() plt.axis("square") plt.legend(handles=handles, labels=["异常值", "正常值"], title="真实类别") plt.title("高斯内围点与均匀分布的异常值") plt.show()

模型训练

使用孤立森林模型对训练数据进行拟合。在Jupyter环境中,可以重新运行此单元格以显示HTML表示,或者在GitHub上使用nbviewer.org加载此页面。

from sklearn.ensemble import IsolationForest clf = IsolationForest(max_samples=100, random_state=0) clf.fit(X_train)

绘制离散决策边界

使用DecisionBoundaryDisplay类来可视化离散决策边界。背景颜色表示在该区域的样本是否被预测为异常值。散点图显示了真实标签。

import matplotlib.pyplot as plt from sklearn.inspection import DecisionBoundaryDisplay disp = DecisionBoundaryDisplay.from_estimator(clf, X, response_method="predict", alpha=0.5) disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k") disp.ax_.set_title("孤立森林的二元决策边界") plt.axis("square") plt.legend(handles=handles, labels=["异常值", "正常值"], title="真实类别") plt.show()

绘制路径长度决策边界

通过设置response_method="decision_function",DecisionBoundaryDisplay的背景表示观测值的“正常性”度量。这个分数由随机树森林的平均路径长度给出,这相当于隔离给定样本所需的叶子深度(或等效地,所需的划分次数)。当随机树森林共同产生短路径长度来隔离某些特定样本时,它们很可能是异常值,正常性度量接近0。类似地,大路径对应于接近1的值,更可能是内围点。

disp = DecisionBoundaryDisplay.from_estimator(clf, X, response_method="decision_function", alpha=0.5) disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k") disp.ax_.set_title("孤立森林的路径长度决策边界") plt.axis("square") plt.legend(handles=handles, labels=["异常值", "正常值"], title="真实类别") plt.colorbar(disp.ax_.collections[1]) plt.show()

(0分钟0.473秒)

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485