高斯过程

高斯过程将有限维高斯分布推广到了无限维,它是关于函数的分布。

Bayesian probabilistic approaches have many virtues, including their ability to incorporate prior knowledge and their ability to link related sources of information.

高斯过程由它的均值函数 [公式] 和协方差函数

[公式]

所决定,一个过程 [公式] 是高斯过程可以记作 [公式] 

  • marginalization property:新来的点不会影响到已有点的分布,这一性质可以让我们只关注观测点的分布,对于其他未观测点可以看作被边缘化(be marginalized out)了。

协方差函数(核函数)

在高斯过程中,协方差函数决定了采样的连续(光滑)性,协方差函数一般也被称为正(半)定核或者Mercel核。通常有两类核函数:平稳和非平稳。

平稳核函数具有平移不变性,两点之间的协方差只取决于它们之间的相对位置。比如Squared exponential (SE),它对应无限个高斯型基函数的和

[公式]

SE核函数的形式为

[公式]

其中 [公式] 是超参数分别代表信号的方差和length scale。

the longer the characteristic length scale, the more slowly varying the typical sample function is. The signal variance defines the vertical scale of variations of a sample function.

其他典型的核函数还有

高斯过程回归

在回归问题中,我们通常希望从 [公式] 中学习潜在的映射关系 [公式] ,其中 [公式] 是输入 [公式] 对应的有噪观测。

在贝叶斯线性回归中,通常利用[公式] 个固定的基函数 [公式] 来参数化潜在函数 [公式]

[公式]

同时对于 [公式] 我们可以赋予一定的先验,根据贝叶斯定理就可以得到参数的后验分布。

在高斯过程回归中(有时候也叫kriging),我们不需要参数化潜在的函数关系,而是直接将先验施加到函数空间上。

假设噪声项服从 [公式] ,则似然模型可以表示为

[公式]

也就是说数据似然服从一个高斯分布,均值是训练输入对应的函数值,方差为噪声方差。

假设函数 [公式] 的先验为一个零均值的高斯过程

[公式]

我们可以得到高斯过程的后验为

[公式]

其中 [公式] 代表Gram矩阵 [公式]  [公式] 为核函数, [公式] 代表一个输入固定为训练样本点的核函数。

回归的最终目标是要做预测,即给定 [公式] 要预测 [公式]

接下来我们来看看预测分布。根据边缘化性质,我们知道训练输入的边缘分布为

[公式]

输出关于输入的条件分布为

[公式]

训练输出 [公式] 和我们想要预测的 [公式] 的联合分布为

[公式]

其中

[公式]

已知联合分布,我们可以求得条件分布,即预测分布为

[公式]

其中

[公式]

超参数优化

在实际使用中,通常核函数需要选择,同时和函数中涉及的超参数需要优化。

假设超参数 [公式] 的先验为 [公式] ,它的后验分布为

[公式]

第一项称为超参数的边际思染或者evidence,其对数形式为

[公式]

其中 [公式] ,通过最大化边际似然函数即可得到超参数的估计值。如果采用梯度法进行优化,还需要求得对数边际似然函数的偏导数

[公式]

剩下的事情就交给求解器吧

稀疏近似

高斯过程模型的一个缺陷在于求你Gram矩阵的计算量大,因此许多研究稀疏近似的办法来减小计算负担,大部分方法的思路都是仅使用 [公式] 个潜在函数值,其他函数值用近似的方法替代。

通常引入一组潜在变量 [公式] ,它们对应输入 [公式] 的潜在函数值,输入的选择不局限于训练或测试数据。潜在函数的联合分布可以进一步表示为

[公式]

其中 [公式] 

为了近似引入假设:给定 [公式]  [公式]  [公式] 相互独立

[公式]

因此可以得到近似表达式

[公式]

其中 [公式] 的形式和先前推导的预测分布一致(无噪声项)。

其他的近似算法不同在于假设不同,以及对条件分布的假设不同。

通过稀疏近似,计算复杂度从 [公式] 降低至 [公式]