高斯分布、高斯混合模型、EM算法详细介绍及其原理详解

前言

今天给大家带来的主要内容包括：高斯分布，高斯混合模型，EM算法。废话不多说，下面就是本文的全部内容了！

一、高斯分布

小明是一所大学的老师，一次考试结束后，小明在统计两个班级同学的成绩：

图1：两个班级同学的成绩

其中，橙色的是一班的成绩，蓝色的是二班的成绩。但是，这次同学们非常调皮，都没有写上自己的名字和班级，这下给小明整不会了。他想：我能不能去猜一猜这些成绩里面，哪些是一班的，而哪些是二班的呢？

图2：两个班级同学没有在试卷上写自己的名字和班级

根据以往的经验，大多同学的成绩都分布在平均值左右，只有少数的同学考的非常好或者是非常不好，我们把这种概率分布叫做高斯分布：

图3：高斯分布

描述高斯分布需要使用到两个参数：

$μ\mu$ ：描述数据的平均值，也被称为均值
$σ2\sigma^{2}$ ：描述数据的离散程度，也被称为方差

图4：高斯分布的两个参数

高斯分布的概率密度公式为：
$P(x;μ,σ2)=12πσexp⁡(−(x−μ)22σ2)P(x;\mu,\sigma^2)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})$

二、高斯混合模型

现在我们已经清楚了什么是高斯分布，那让我们再回到小明的例子：

图5：两个班级同学没有在试卷上写自己的名字和班级

因为这是两个班级的成绩，所以小明尝试使用两个高斯分布来拟合：

这样的模型也被称为高斯混合模型。在这个模型里面：

如果我们知道哪些点来自一班或者是来自二班，那么我们就可以计算出来各自班级成绩的平均值和方差
如果我们知道各自班级成绩的平均值和方差，我们也可以大概猜出来哪些点是来自一班的，哪些点是来自二班的

这其实是一个鸡生蛋，蛋生鸡的问题：

图6：数据与分布的关系

如果我们有数据就可以来拟合分布，如果我们有了概率分布，就可以来判断数据的类别。但是，问题是我们现在什么都没有，应该怎么办呢？

三、EM算法

根据以上分析，我们现在什么数据都没有，还想对成绩进行分类，显然是有难度的。我们应该怎么办呢？既然我们没有数据，不如先做一个合适的假设来确定一部分的值。现在我们假设两个分布是这样的：

图7：假设的两个班级的成绩分布

而且两个类别的先验概率是相等的。需要注意的是，以上这些都是假设，但是由于这些假设的存在，所以下式的值就是已知的量：
$P(γ1)=P(γ2)=0.5P(\gamma_{1})=P(\gamma_{2})=0.5$

3.1 E步骤（Expectation）

现在我们来评估一下每个成绩点是属于哪个班级的，对于第 $i$ 个数据 $x_{i}$ 来说：

图8：许多成绩点中的某一个成绩点

  根据贝叶斯定理， $x_{i}$ 属于一班的概率是这样求的：
$γi1=P(γi∣xi)=P(xi∣γ1)P(γ1)P(xi∣γ1)P(γ1)+P(xi∣γ2)P(γ2)\gamma_{i1}=P(\gamma_i|x_i)=\dfrac{P(x_i|\gamma_1)P(\gamma_1)}{P(x_i|\gamma_1)P(\gamma_1)+P(x_i|\gamma_2)P(\gamma_2)}$
  上面的式子看似复杂，但是其中的每一项现在都是已知的，直接计算就可以了。现在已经得到了 $x_{i}$ 属于一班的概率，那么 $x_{i}$ 属于二班的概率就是1减去 $x_{i}$ 属于一班的概率：
$γi2=P(γ2∣xi)=1−γi1\gamma_{i2}=P(\gamma_{2}|x_{i})=1-\gamma_{i1}$
  这样我们就可以给每一个点涂上对应的颜色，来表示它们可能属于的班级：

图9：对于任意一个成绩点的可能属于的班级

这一步被称为E步骤（Expectation），可以理解为求每一个点属于每个类别的期望值。

3.2 M步骤（Maximization）

此时，我们已经得到了每一个点属于每个班级的可能性，我们就可以重新校准两个班级的高斯分布了，也就是重新计算两个班级的平均值和方差：

一班：

\begin{array}{l} μ_{1} = \frac{γ_{11} x_{1} + γ_{21} x_{1} + \dots + γ_{N 1} x_{N}}{γ_{11} + γ_{21} + \dots + γ_{N 1}} \\ σ_{1}^{2} = \frac{γ_{11} (x_{1} - μ_{1})^{2} + \dots + γ_{N 1} (x_{N} - μ_{1})^{2}}{γ_{11} + \dots + γ_{N 1}} \end{array}

\begin{array}{l}\mu_1=\frac{\gamma_{11}x_1+\gamma_{21}x_1+\ldots+\gamma_{N1}x_N}{\gamma_{11}+\gamma_{21}+\ldots+\gamma_{N1}}\ \sigma_1^2=\frac{\gamma_{11}(x_1-\mu_1)^2+\ldots+\gamma_{N1}(x_N-\mu_1)^2}{\gamma_{11}+\ldots+\gamma_{N1}}\end{array}

二班：

\begin{array}{l} μ_{2} = \frac{γ_{12} x_{1} + γ_{22} x_{1} + \dots + γ_{N 2} x_{N}}{γ_{12} + γ_{22} + \dots + γ_{N 2}} \\ σ_{2}^{2} = \frac{γ_{12} (x_{1} - μ_{2})^{2} + \dots + γ_{N 2} (x_{N} - μ_{2})^{2}}{γ_{12} + \dots + γ_{N 2}} \end{array}

\begin{array}{l}\mu_2=\frac{\gamma_{12}x_1+\gamma_{22}x_1+\ldots+\gamma_{N2}x_N}{\gamma_{12}+\gamma_{22}+\ldots+\gamma_{N2}}\ \sigma_2^2=\frac{\gamma_{12}(x_1-\mu_2)^2+\ldots+\gamma_{N2}(x_N-\mu_2)^2}{\gamma_{12}+\ldots+\gamma_{N2}}\end{array}

同时，也可以更新两个班级的先验概率：

一班：
$P(γ1)=γ11+…+γN1NP(\gamma_1)=\frac{\gamma_{11}+\ldots+\gamma_{N1}}{N}$
二班：
$P(γ2)=γ12+…+γN2NP(\gamma_2)=\frac{\gamma_{12}+\ldots+\gamma_{N2}}{N}$

这一步被称为M步骤（Maximization），可以理解为，通过当前的数据求出最可能的分布参数。

3.3 EM算法

以上两个步骤合起来就是EM算法。当然，算法还没有结束，我们现在只是通过E和M两个步骤求出了两个班级的成绩分布的新的平均值和方差：

图10：两个班级新的成绩分布图像

后面的工作就是重复E和M两个步骤：

E步骤：根据两个班级的成绩分布更新点属于两个班级的可能性
M步骤：更新两个班级的成绩分布的平均值和方差

一直重复以上两个步骤，直到两个成绩分布收敛不再被更新：

图11：收敛后的两个班级的成绩分布图像

这样我们就得到了一个还不错的分类效果：

图12：通过EM算法得到的分类结果

虽然和真实数据相比仍然有误差，不过也可以猜的八九不离十了：

图13：真实的分类情况

这样，通过EM算法，小明的问题就可以被解决了。

总结

以上就是本文的全部内容了，学习EM算法还需要一些概率论与数理统计和高等数学的相关知识，所以读者最好提前温习一下。学习机器学习避免不了学习高等数学、线性代数、概率论与数理统计和矩阵论，所以读者一定要好好学习这几门课程！

人工智能深度学习高斯分布公式推导 EM算法

转载原出处：

打赏 0

上一篇：朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

下一篇：决策树算法和CART决策树算法详细介绍及其原理详解

高斯分布、高斯混合模型、EM算法详细介绍及其原理详解

IronmanJay

相关文章

文章目录

前言

一、高斯分布

二、高斯混合模型

三、EM算法

3.1 E步骤（Expectation）

3.2 M步骤（Maximization）

3.3 EM算法

总结

为你推荐

《Composite Structures》人体冲击防护复合材料结构

精选Meta Learning

强化学习基础——形象化解释值函数含义以及期望的意义

机器学习笔记（七）：概率图模型

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

深度强化学习【1】-强化学习入门必备基础（含Python迷宫游戏求解实例）

评论（0）

关于作者

IronmanJay

7

0

0

2

精选线性回归算法和逻辑斯谛回归算法详细介绍及其原理详解

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

基于朴素贝叶斯的垃圾邮件分类系统项目开发教程

相关推荐

强化学习 2：马尔可夫决策过程（MDP）与贝尔曼方程（Bellman）

强化学习（十）Double DQN (DDQN)

支持向量机原理(二) 线性支持向量机的软间隔最大化模型

训练集(Train),验证集(Validation)和测试集(Test Sets)以及交叉验证法

好课上新——《CoppeliaSim结合Gym强化学习入门》

利用yolov5完成目标检测详细过程

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板