本示例展示了在二维版本的鸢尾花数据集上,使用各向同性和各向异性径向基函数(RBF)核的高斯过程分类(GPC)预测概率。各向异性RBF核通过为两个特征维度分配不同的长度尺度,获得了略高的对数边际似然。
以下是使用Python语言和scikit-learn库实现的GPC代码示例。
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
# 加载数据集
iris = datasets.load_iris()
X = iris.data[:, :2] # 只取前两个特征
y = np.array(iris.target, dtype=int)
# 设置网格的步长
h = 0.02
# 定义各向同性RBF核
kernel_isotropic = 1.0 * RBF([1.0])
# 定义各向异性RBF核
kernel_anisotropic = 1.0 * RBF([1.0, 1.0])
# 创建GPC模型并训练
gpc_rbf_isotropic = GaussianProcessClassifier(kernel=kernel_isotropic)
gpc_rbf_isotropic.fit(X, y)
gpc_rbf_anisotropic = GaussianProcessClassifier(kernel=kernel_anisotropic)
gpc_rbf_anisotropic.fit(X, y)
# 创建绘图网格
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
# 绘制预测概率图
titles = ["各向同性RBF", "各向异性RBF"]
plt.figure(figsize=(10, 5))
for i, clf in enumerate((gpc_rbf_isotropic, gpc_rbf_anisotropic)):
plt.subplot(1, 2, i + 1)
Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape((xx.shape[0], xx.shape[1], 3))
plt.imshow(Z, extent=(x_min, x_max, y_min, y_max), origin="lower")
plt.scatter(X[:, 0], X[:, 1], c=np.array(["r", "g", "b"])[y], edgecolors=(0, 0, 0))
plt.xlabel("萼片长度")
plt.ylabel("萼片宽度")
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.xticks(())
plt.yticks(())
plt.title("%s, LML: %.3f" % (titles[i], clf.log_marginal_likelihood(clf.kernel_.theta)))
plt.tight_layout()
plt.show()
上述代码首先导入了必要的库,然后加载了鸢尾花数据集,并仅取前两个特征用于分类。接着定义了两种不同的RBF核,并创建了GPC模型。模型训练完成后,使用网格数据绘制了预测概率图,并显示了训练点。最后,代码还计算并显示了每个模型的对数边际似然值。
通过比较各向同性和各向异性RBF核的预测概率图,可以看到各向异性RBF核在某些情况下可能提供更准确的分类结果。这是因为它能够通过为不同特征维度分配不同的长度尺度来捕捉数据中的不同变化模式。
对数边际似然值(LML)是衡量模型拟合优度的一个重要指标。在本例中,各向异性RBF核的LML值略高于各向同性RBF核,这表明在给定的数据集上,各向异性RBF核可能提供了更好的模型拟合。