365bet体育在线大陆

当前位置:主页 > 365bet体育在线大陆 >

EM算法原理综述

时间:2019-01-28 00:48 作者:admin 点击:

EM算法也称为最大期望值(EM)算法。这是一个基本的算法,隐马尔可夫算法(HMM),如LDA主题模型的推断变,这将是一个数量的机器学习算法域的基础。等一下
本文总结了EM算法的原理。
1
EM算法解决了这个问题
通常从样品的观察数据中找到样品模型的参数。
最常见的方法是最大化概率函数以记录模型的分布。
但是,在某些情况下,在获取的观测数据中没有观察到隐含数据。目前,因为未知的数据和模型参数,你将无法直接得到模型分布的参数,以最大限度地数似然函数。
我该怎么办?
这是EM算法有用的地方。
EM算法解决这个问题的想法是使用迭代启发式算法。因为你无法找到第一个猜测隐式数据模型直接,(EM算法的步骤E)的分布参数,你就可以猜测所观察到的数据和算命数据的基础上,已隐藏的数据。我们的模型参数(EM算法的步骤M)。
由于我们先前隐藏的数据被推断,此时获得的模型参数通常不是我们想要的。
但这不是问题。继续猜测基于当前获得的(对EM算法E的步骤)的模型的参数的隐式数据,解决了模型参数然后最大化注册的概率(EM算法的步骤M)。
同样,模型的分布参数不再变化,算法收敛并迭代直到找到适当的模型参数。
如可以从前面的描述中可以看出,EM算法是用于解决重复的最大值的算法,该算法被划分为在每个迭代步骤E和步骤M的两个步骤。
它通过一系列迭代进行更新,直到模型隐式数据和分布参数收敛为止。换句话说,您将获得所需模型的参数。
理解EM算法的最直观方法之一是K平均算法。请参阅以前的K-Means聚类算法。
在K均值分组中,每个聚类的质心是隐含的。
$?$的重心,也就是初始化EM算法的步骤E,最近计算出每个样本的近心那么,假设你要组样品到最近重心在EM算法的步骤Mi。
重复此步骤E和M,直到重心不再变化,并完成K平均分组。
当然,K-Means算法相对简单,实际问题往往不那么简单。
先前对EM算法的解释仍然非常接近,因此我们需要用数学语言进行精确解释。
2
EM算法的推导
查看$ m $样本数据$ x =(x ^{(1)},x ^{(2)}。
的x ^(M)}$并找到$ \ THETA $的样品的模型参数,以最大化的概率函数来注册以如下方式模型分布。$$ \ THETA = ARG \最大\范围_{\ THETA}\总和\范围_{i = 1}^ mlogP(X ^{(I)}; \))$$
当观测数据获取没有观察到数据$ Z =(Z ^{(1)},存在Z 1{(2)}。
此时,模型的最大分布的对数概率函数是$$ \ THETA = ARG \最大\限制\{\ THETA}\总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA)= ARG \最大\限制\{\ THETA}\总和\ limits_{I = 1}^管理记录\总和\ limits_{Z ^{(I)}}P(X ^{(I)},Z ^{(I)},\ THETA)$$
在前一个表达式中无法直接找到$ \ theta $。
所以我们需要一些特殊的技巧。首先,将此公式缩放如下。$$ \{开始对齐}\总和\ limits_{I = 1}^管理记录\总和\ limits_{Z ^{(I)}}P(X ^{(I)},Z ^{(I)}; \\ ___(z ^{(i)})\ frac{P(x ^{(i)},Z 1{(I)}\ THETA)}{Q_I(Z ^{(I)})}\\\ GEQ \总和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}Q_I(Z ^{(I)})LOG \压裂{P(X ^{(I)},Z ^{(I)}; \ THETA)}{Q_I(Z ^{(I)})}\结束{align}$$
新的和未知的分布$ Q_I(Z ^{(I)})的上述等式(1)中引入一个$,等式(2)使用詹森的不等式。$$ LOG \总和\ limits_j \ lambda_jy_j \ GEQ \总和\ limits_j \ lambda_jlogy_j \; \; \ lambda_j \ geq0,\总和\ limits_j \ lambda_j = 1 $$可替代地,由于对数函数是一个凹函数,如下所示我会的。$$ F(E(X))\ geqE(F(X))\; \;若f(x)是一个凹函数
目前,如果你想满足平等不平等詹森,$$$压裂{P(X ^{(I)},Z ^{(I)}; \ THETA)}{Q_I(z ^{(I)})}= C,c是常量$$
由于分配了$ Q_i(z ^{(i)})$,因此满足以下条件。$$ \ sum \ limits_{z}Q_i(z ^{(i)})= 1 $$
在上述两个方程中,我们可以得到以下等式。\ theta)}{\ sum \ limits_{z}P(x{circumflex over()}){(I)},Z ^{(I)},\ THETA)}= \压裂{P(X ^{(I)},Z ^{(I)}; THETA){P(X ^{(ⅰ)}; \ THETA)}= P(Z ^{(I)}| X ^{(I)}; \ THETA))$$
$ Q_I(Z ^{(I)})= P(Z ^{(I)}| X ^{(I)}; \))如果$的,式(2)将包含隐藏的数据。注册概率下限
如果我们能够最大化这个下限,我们正在努力最大化注册的可能性。换句话说,你需要最大化:$$ ARG \最大\限制_{\ THETA}\总和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}Q_I(Z ^{(\压裂{P(X ^{(I)},Z ^{(I)},\ THETA)}{Q_I(Z ^{(I)})}$$
要删除上述式的常数,就需要以最大化登记概率的下限。$$$ \最大\限制_{\ THETA}\总和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}Q_I(Z ^{(I)})日志{P(X ^{(I)},Z ^{(I)}; \ THETA)}$$
上面的等式也是我们的EM算法的步骤M.步骤E会发生什么?
$ Q_I(Z ^{(I)})$是因为之前官方发行,$ \和\ limits_{Z ^{(I)}}Q_I(Z ^{(I)})日志{P(X ^{(I)},Z ^{(I)}; \ THETA)}$为$的logP(X ^{(I)},Z ^{(I)}; \)“,并且可以被解释。根据条件概率,$ Q_I(Z ^{(I)})的预期值和分配的$。
到现在为止,我们已经了解了EM算法的步骤E和步骤M的具体数学含义。
3
EM算法流程
总结了EM算法的流程。
输入:数据$ X =(X ^{(1)},请注意在x ^{(2)}。
X ^{(M)})$,联合分布$ P(X,Z; \)$,条件分布$ P(Z | X; \)$,迭代的最大数量$ $?
1)的模型参数$ \ THETA $ $ \ THETA ^{0}初始化$的随机初始值。
2)forjfrom1toJ开始重复EM算法。
a)步骤E:计算联合分布的条件概率期望值。$$ Q_I(Z ^{(I)})= P(Z ^{(I)}| X ^{(I)},\ THETA ^{?}))$$$$ L(\ THETA,\ THETA^{?})= \和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}Q_I(Z ^){(I)})日志{P(X ^{(ⅰ),Z ^{(i)}; \ theta)}$$
b)步骤L:$ L(\ THETA,\ THETA ^{?})$ A $最大化\ THETA ^{J + 1}$得到:$$ \ THETA ^{J + 1}= ARG \最大\限制_{\ THETA}L(\ THETA,\ THETA ^{?})$$
c)如果$ \ THETA ^{J + 1}$收敛,算法结束。
否则,继续步骤a)进行E步迭代。
输出:参数模型$ \ theta $。
4
EM算法的收敛思考
EM算法的流程并不复杂,但有两点需要考虑。
1)EM算法可以保证收敛吗?
2)如果EM算法收敛,它能否保证收敛到全局最大值?
首先,让我们看一下第一个问题,即EM算法的收敛性。
为了EM算法来证明收敛,必须证明它在重复期间已增加是寄存器概率函数的值:$$ \总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA ^{j + 1})\ GEQ \总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA ^{?})$$
$$ L(\ THETA,\ THETA ^{?})= \和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}P(Z ^{(I)}| X^{(I)}; \ THETA ^{?}))日志{P(X ^{(I)},Z ^{(I)}; \ THETA)}$$
顺序:$$ H(\ THETA,\ THETA ^{?})= \和\ limits_{I = 1}^ M \总和\ limits_{Z ^{(I)}}P(Z ^{(I)}| X ^{(I)}; \ THETA ^{?}))日志{P(Z ^{(I)}| X ^{(I)}; \ THETA)}$$
减去上述两个方程式得出以下结论。$$ \总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA)= L(\ THETA,\ THETA ^{?}) - H(\ THETA,\ THETA ^{?})$$
在上述方程中,$ \ THETA $被认为是$ \ THETA道^ J $和$ \ THETA ^{J + 1}$,被减去如下。$$ \总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA ^{J + 1}) - \总和\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA ^{?})=[L(\ THETA ^{j + 1},\ THETA ^{?}) - L(\ THETA ^{?},\ THETA ^{?})]-[H(\ THETA ^{j + 1},\ THETA ^{j)条) - H(\ THETA ^{?},\ THETA ^{?})]$$
为了测试EM算法的收敛性,有必要表明前面的公式正确的一侧不为负。
$ \西塔^{J + 1}$是$ L(\θ表示\ THETA ^{?}),因为$一个非常大的,可能看起来像下面这样。$$ L(\ THETA ^{j + 1},\ THETA ^{?}) - L(\ THETA ^{?},\ THETA ^{?})为\ geq0 $$ 2个部分,如下它变成了。$$ \ BEGIN{对齐}H(\ THETA ^{j + 1},\ THETA ^{?}) - H(\ THETA ^{?},\ THETA ^{?})= \和\ limits_{I =1}^ M \总和\ limits_{Z ^{(I)}}P(Z ^{(I)}| X ^{(I)}; \ THETA ^{?})日志\压裂{P(Z ^{(I)}| X ^{(I)}; \ THETA ^{j + 1})}{P(Z ^{(I)}| X ^{(I)};}\ THETA ^ j)的}\\当量\总和\ limits_{I = 1}^管理记录(\总和\ limits_{Z ^{(I)}}P(Z ^{(I)}| X ^{(I)}; \ THETA ^{?})\压裂{P(Z ^{(I)}| X ^{(I)}; \ THETA ^{j + 1})}{P(Z ^{(I)}| X ^{(ⅰ)}; \ THETA ^ j)的})\\ = \和\ limits_{I = 1}^管理记录(\总和\ limits_{Z ^{(I)}}P(Z ^{(I)}| X ^{(I)}; \ THETA ^{J + 1}))= 0 \{端对齐}$$
等式(4)使用詹森的不等式,但是相对于使用第二部分。等式(5)使用概率分布累积为1的属性。
在这一点上,它将如下。$ \萨姆\ limits_{I = 1}^ mlogP(X ^{(I)}; \ THETA ^{J + 1}) - \总和\ limits_{I = 1}^ mlogP(证明XEM算法的收敛到({I)}; \ THETA ^{?})\ geq0 $
虽然EM算法可以保证收敛到一个稳定点,就不可能保证收敛到全球最大点,因为它可以从以前的推导中可以看出,这是一个局部最优的算法。当然,优化的目的是$ L(\θ表示\ THETA ^{}?)如果$是凸的,EM算法可以保证收敛到全局最大值。这与迭代算法相同。梯度下降
到目前为止,我回答了上面的第二个问题。

关于EM算法的一些注意事项从算法思维的角度考虑EM算法,我们可以看到我们的算法已知的是观测数据。未知是模型的隐式数据和参数。在步骤E中,修改模型的参数,优化隐式数据的分布,并在步骤M中修改隐式数据的分布并优化模型的参数值。
与其他机器学习算法相比,许多算法都有类似的想法。
例如,SMO算法(支持向量机原理(4)SMO算法原理),坐标轴下降法(Lasso回归算法:坐标轴下降法和总结)。最小角度回归方法)都使用类似的思路来解决问题。
您还可以比较这些算法的优化方法,看看它们是否有共同点。
(欢迎转载,请注明出处。
欢迎来电:刘建平 - 好@ 163。
COM)