孤立森林算法示例

孤立森林是一种基于随机森林的异常检测算法，它通过递归随机划分数据来“隔离”观测值，形成树状结构。对于异常值，所需的划分次数较少，而对于正常值则较多。本例中，将展示两种方法来可视化在玩具数据集上训练的孤立森林模型的决策边界。

数据生成

生成两个簇（每个簇包含n_samples个样本），通过随机采样标准正态分布来生成数据，其中一个簇是球形的，另一个簇略有变形。为了与孤立森林的符号保持一致，将内围点（即高斯簇）分配一个真实的标签1，而将异常值（通过numpy.random.uniform创建）分配标签-1。


import numpy as np
from sklearn.model_selection import train_test_split

n_samples, n_outliers = 120, 40
rng = np.random.RandomState(0)
covariance = np.array([[0.5, -0.1], [0.7, 0.4]])

cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2])
cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2])
outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2))

X = np.concatenate([cluster_1, cluster_2, outliers])
y = np.concatenate([np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)])

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

可以可视化生成的簇：


import matplotlib.pyplot as plt

scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
handles, labels = scatter.legend_elements()
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.title("高斯内围点与均匀分布的异常值")
plt.show()

模型训练

使用孤立森林模型来训练数据，并设置max_samples参数为100，random_state为0。


from sklearn.ensemble import IsolationForest

clf = IsolationForest(max_samples=100, random_state=0)
clf.fit(X_train)

在Jupyter环境中，请重新运行此单元格以显示HTML表示，或信任笔记本。在GitHub上，HTML表示无法渲染，请尝试使用nbviewer.org加载此页面。

绘制离散决策边界

使用DecisionBoundaryDisplay类来可视化离散决策边界。背景颜色表示该区域中的样本是否被预测为异常值。散点图显示了真实标签。


import matplotlib.pyplot as plt
from sklearn.inspection import DecisionBoundaryDisplay

disp = DecisionBoundaryDisplay.from_estimator(clf, X, response_method="predict", alpha=0.5)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("孤立森林的二元决策边界")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.show()

通过设置response_method="decision_function"，DecisionBoundaryDisplay的背景表示观测值的“正常性”度量。这样的分数由随机森林中树的平均路径长度给出，这又由隔离给定样本所需的叶子深度（或等效地，所需的划分次数）给出。当一组随机树共同产生隔离某些特定样本的短路径长度时，它们很可能是异常值，正常性的度量接近0。同样，大路径对应接近1的值，更可能是内围点。


disp = DecisionBoundaryDisplay.from_estimator(clf, X, response_method="decision_function", alpha=0.5)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("孤立森林的路径长度决策边界")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.colorbar(disp.ax_.collections[1])
plt.show()

梯度提升算法演示

本网页介绍了梯度提升算法的基本概念和实现，包括正则化、随机梯度下降和特征采样等策略，以及如何使用Python进行梯度提升分类模型的训练和评估。

单调约束对梯度提升树的影响

本网页介绍了在机器学习中，如何通过单调约束来优化梯度提升树模型，使其更好地捕捉数据的总体趋势，而忽略局部波动。

孤立森林算法示例

数据生成

模型训练

绘制离散决策边界

梯度提升算法演示

单调约束对梯度提升树的影响

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

孤立森林算法示例

数据生成

模型训练

绘制离散决策边界

梯度提升算法演示

单调约束对梯度提升树的影响

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485