首先定义一个输入空间X,定义一个函数f,该函数将X上的点映射到空间F。F上的每个点都是一个随机变量。 GPR假设F上的点遵循高斯过程,也就是说,对于任何有限数量的点f_1,f_n,它们的联合分布都是高斯分布。均值由均值函数定义,协方差矩阵由协方差函数定义。 GPR还假定一维高斯噪声\ epsilon,这也是服从高斯分布的一维随机变量。 f + \ epsilon表示观察到的样本点y,所有样本点的集合称为Y。由于无法实际观察到f,因此我们将f称为隐式函数,将y称为观察函数。以上是GPR的数据生成过程。首先,很明显,我们需要的是f_ \ ast p(f_ \ ast | \ bm {x} _ \ ast,\ bm {X},\ bm {y})的后验分布= \ mathcal { N}(\ mu,\ sigma ^ 2)(1)其中\ mu = \ bm {k_ \ ast} ^ T(K + \ sigma_n ^ 2 I)^ {-1} \ bm {y},\ sigma ^ 2 = k _ {\ ast \ ast}-\ bm {k_ \ ast} ^ T(K + \ sigma ^ 2 I)^ {-1} \ bm {k_ \ ast}。推理过程可以参考GPML的第17页。可以这样说,GPML书写道:“方程(2。5)中的后验结合了似然和先验,并捕获了我们所知道的有关参数的所有信息。”也就是说,后验包含了我们所知道的所有信息。 ,包括先验和数据。根据GPML第5章中模型选择的第109页,参数优化策略分为三个级别。第一层是使模型的隐函数f的后验概率最大化,第二层是使模型的超参数\ theta的后验概率最大化,最后模型类型也用作变量,以使模型的后验概率最大化H。实际上,我们正在使用第二层策略(5。5),但是,由于无法计算分母,并且分母是\ theta的常数,因此分子部分被最大化。分子部分是边际似然函数\ log p(\ bm {y} | X)与超参数先验分布p(\ theta)的乘积。 \ log p(\ bm {y} | X)=-\ frac {1} {2} \ bm {y} ^ T(K + \ sigma_n ^ 2I)^ {-1} \ bm {y}-\ frac {1} {2} \日志| K + \ sigma ^ 2I |-\ frac {n} {2} \ log2 \ pi(2)此策略也称为第二类型最大似然估计(ML-II)。准备数据以构建模型。优化模型在新点预测功能值。当执行gpflow。train。ScipyOptimizer()时会发生什么。最小化(m)?首先,初始化模型并计算目标函数。 GPR。_build_likelihood()计算高斯对数边际似然,所以GPR的目标函数实际上是对数边际似然+对数参数,请参见以下代码:其次构建张量流计算图,然后使用L-BFGS-B优化目标函数。执行m。predict_y(xx)时会发生什么?根据GPML回归一章中的算法2。1,调用GPR。_build_predict()以计算预测函数值。示例1使用最大化\ theta的似然函数(即f的边际似然函数)来找到\ theta,然后通过解析解获得预测函数值。我们还可以使用MCMC方法来预测函数值。在这里,我们要求p(\ theta | \ bm {X},\ bm {y}),也可以写成p(f_ \ ast | \ bm {x} _ \ ast,\ bm {X}, \ bm {y})= \ int p(f_ \ ast | \ bm {x} _ \ ast,\ bm {X},\ bm {y},\ theta)p(\ theta)〜d \ theta。我们使用HMC从先前的p(\ theta)采样N个点,设置超参数的先验采样以求平均。至此,GPflow中的GPR已完成。 GPflow-master / doc / source / notebooks / regression。py Rasmussen,Carl Edward。 “机器学习中的高斯过程。”关于机器学习的高级讲座。施普林格,柏林,海德堡,2004年。63-71。