在机器学习领域,将数据映射到高维稀疏表示可能对分类任务非常有益。这种映射是完全无监督的,并且非常高效。本文通过几个树的划分来可视化变换,展示了如何使用变换进行非线性降维或非线性分类。相邻的点经常共享树的同一叶子,因此它们的哈希表示共享大部分。这允许仅基于转换数据的主成分和截断SVD来简单地分离两个同心圆。
在高维空间中,线性分类器通常能够达到极高的准确率。对于稀疏二进制数据,伯努利朴素贝叶斯分类器特别适用。下面的代码比较了在转换空间中通过伯努利朴素贝叶斯分类器获得的决策边界与在原始数据上学到的ExtraTrees分类器森林。
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_circles
from sklearn.decomposition import TruncatedSVD
from sklearn.ensemble import ExtraTreesClassifier, RandomTreesEmbedding
from sklearn.naive_bayes import BernoulliNB
# 创建一个合成数据集
X, y = make_circles(factor=0.5, random_state=0, noise=0.05)
# 使用RandomTreesEmbedding转换数据
hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)
# 使用截断SVD进行降维
svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)
# 在转换后的数据上学习一个朴素贝叶斯分类器
nb = BernoulliNB()
nb.fit(X_transformed, y)
# 学习一个ExtraTreesClassifier进行比较
trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)
# 原始数据和降维数据的散点图
fig = plt.figure(figsize=(9, 8))
ax = plt.subplot(221)
ax.scatter(X[:,0], X[:,1], c=y, s=50, edgecolor="k")
ax.set_title("原始数据 (2d)")
ax.set_xticks(())
ax.set_yticks(())
ax = plt.subplot(222)
ax.scatter(X_reduced[:,0], X_reduced[:,1], c=y, s=50, edgecolor="k")
ax.set_title("转换数据的截断SVD降维 (2d)")
ax.set_xticks(())
ax.set_yticks(())
# 在原始空间中绘制决策边界。为此,将为网格中的每个点分配一个颜色
h = 0.01
x_min, x_max = X[:,0].min() - 0.5, X[:,0].max() + 0.5
y_min, y_max = X[:,1].min() - 0.5, X[:,1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
# 使用RandomTreesEmbedding转换网格
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:,1]
ax = plt.subplot(223)
ax.set_title("转换数据上的朴素贝叶斯")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:,0], X[:,1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())
# 使用ExtraTreesClassifier转换网格
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:,1]
ax = plt.subplot(224)
ax.set_title("ExtraTrees预测")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:,0], X[:,1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())
plt.tight_layout()
plt.show()
脚本的总运行时间:(0分钟 0.350秒)