高斯过程回归分析

高斯过程回归(Gaussian Process Regression, GPR)是一种基于概率的非参数化回归方法,它通过假设数据点之间存在某种相关性来预测未知数据点的值。在本文中,将探讨高斯过程回归在无噪声和有噪声情况下的应用,并展示其插值特性和概率性质。

数据集生成

首先,需要生成一个合成数据集。真实的生成过程定义为 f(x) = x * sin(x)。使用NumPy库来生成数据点,并使用Matplotlib库来绘制真实的生成过程。

import numpy as np X = np.linspace(start=0, stop=10, num=1000).reshape(-1, 1) y = np.squeeze(X * np.sin(X)) import matplotlib.pyplot as plt plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted") plt.legend() plt.xlabel("$x$") plt.ylabel("$f(x)$") plt.title("真实的生成过程") plt.show()

这个数据集将用于接下来的实验,以展示高斯过程回归是如何工作的。

无噪声目标的示例

在这个例子中,将使用真实的生成过程而不添加任何噪声。为了训练高斯过程回归,只选择少量的样本。使用径向基函数(RBF)核和一个常数参数来拟合振幅。

from sklearn.gaussian_process import GaussianProcessRegressor from sklearn.gaussian_process.kernels import RBF kernel = 1 * RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e2)) gaussian_process = GaussianProcessRegressor(kernel=kernel, n_restarts_optimizer=9) gaussian_process.fit(X_train, y_train) mean_prediction, std_prediction = gaussian_process.predict(X, return_std=True) plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted") plt.scatter(X_train, y_train, label="观测值") plt.plot(X, mean_prediction, label="平均预测") plt.fill_between(X.ravel(), mean_prediction - 1.96 * std_prediction, mean_prediction + 1.96 * std_prediction, alpha=0.5, label="95%置信区间") plt.legend() plt.xlabel("$x$") plt.ylabel("$f(x)$") plt.title("无噪声数据集上的高斯过程回归") plt.show()

可以看到,对于接近训练集的数据点的预测,95%置信区间的幅度较小。当样本远离训练数据时,模型的预测精度降低,模型预测的不确定性增加(不确定性更高)。

有噪声目标的示例

可以重复类似的实验,这次在目标上添加额外的噪声。这将允许看到噪声对拟合模型的影响。以任意标准差向目标添加一些随机高斯噪声。

noise_std = 0.75 y_train_noisy = y_train + np.random.normal(loc=0.0, scale=noise_std, size=y_train.shape) gaussian_process = GaussianProcessRegressor(kernel=kernel, alpha=noise_std**2, n_restarts_optimizer=9) gaussian_process.fit(X_train, y_train_noisy) mean_prediction, std_prediction = gaussian_process.predict(X, return_std=True) plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted") plt.errorbar(X_train, y_train_noisy, noise_std, linestyle="None", color="tab:blue", marker=".", markersize=10, label="观测值") plt.plot(X, mean_prediction, label="平均预测") plt.fill_between(X.ravel(), mean_prediction - 1.96 * std_prediction, mean_prediction + 1.96 * std_prediction, color="tab:orange", alpha=0.5, label="95%置信区间") plt.legend() plt.xlabel("$x$") plt.ylabel("$f(x)$") plt.title("有噪声数据集上的高斯过程回归") plt.show()

噪声会影响接近训练样本的预测:预测的不确定性在训练样本附近变大,因为明确地模拟了一个给定水平的目标噪声,与输入变量无关。

脚本总运行时间

脚本的总运行时间为:0分钟0.511秒。

  • 核岭回归与高斯过程回归的比较
  • 高斯过程回归估计数据噪声水平的能力
  • 使用高斯过程回归预测Mona Loa数据集上的CO2水平
  • 高斯过程分类在XOR数据集上的示例
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485