EM

EM

Posted by ZhengYang on 2016-07-20

EM

如果只有观测变量,那么可以直接用极大似然估计,或极大后验概率估计来估计参数。

但如果样本中包含了隐变量,而隐变量的值不知道,所以没法计算概率,也就不能直接用极大似然估计或极大后验估计了。

这也是EM算法的由来。EM算法是一种迭代算法,用来解决含有隐变量的概率模型的学习。

EM算法分为求期望部分(E步)和求极大部分(M步),可以用在求混合高斯模型,隐马尔科夫模型等。不同的文章讲EM,会有不同的角度,我主要从PRML,cs229和统计学习方法中,总结了EM过程。

为什么EM能使目标函数收敛到局部最优?

L是q的泛函形式;KL是q和p的对比散度

由于KL是大于等于0的,因此,L是目标函数的下界

  1. 为了增大下界,即L等于目标函数,令KL为0,得到了q函数的具体形式,即等于当前的p
  2. 将q代入L,调整L中的参数,极大化L,但同时KL大于0了,所以目标函数的增幅大于L
  3. 此时,再次令KL为0,得到q,迭代,直至L收敛

PRML

PRML_1
PRML_2

cs229

cs229_1
cs229_2

统计学习方法

stat