基本概念
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观察的状态随机序列,再由各个状态生成一个观测而产生随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列;每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列。序列的每一个未知又可以看做是一个时刻。
用途
隐马尔科夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。
前提
随机变量
随机变量(Random Variable),通常用大写字母来表示一个随机事件。比如看下面的例子:
$X$:河水是咸的;$Y$:井水是甜的
很显然,$X$与$Y$两个随机事件是没有关系的。也就是说和之间是相互独立的。记作:
随机过程
对于一类随机变量来说,它们之间存在着某种关系。
比如: :表示在 时刻某支股票的价格,那么$S_{t+1}$和$S_t$之间一定是有关系的,至于具体什么样的关系,这里原先不做深究,但有一点可以确定,两者之间一定存在的一种关系。随着时间$t$的变化,可以写出下面的形式:
⋯St,St+1,St+2⋯ 这样就生成了一组随机变量,它们之间存在着一种相当复杂的关系,也就是说,各个随机变量之间存在着关系,即不相互独立。由此,我们会把按照某个时间或者次序上的一组不相互独立的随机变量的这样一个整体作为研究对象。这样的话,也就引出了另外的一个概念:随机过程(Stochastic Process)。也就是说随机过程的研究对象不在是单个的随机变量,而是一组随机变量,并且这一组随机变量之间存在着一种非常紧密的关系(不相互独立)。记作:
{St}t=1∞ 马尔可夫链/过程
**马尔科夫链(Markov Chain)**即马尔可夫过程,是一种特殊的随机过程——具备马尔可夫性的随机过程。
马尔可夫性:(Markov Property): 如果满足$P(S_{t+1}|S_t,S_{t-1}\cdots S_1)=P(S_{t+1}|S_t)$,即具备了马尔可夫性。简单来说, 和之间存在关系,和以前的时刻的没有关系,即只和“最近的状态” 有关系。
现实例子:**下一个时刻仅依赖于当前时刻,跟过去无关。**比如:一个老师讲课,明天的讲课状态一定和今天的状态最有关系,和过去十年的状态基本就没关系了。
最主要考量:为了简化计算。$P(S_{t+1}|S_t,S_{t-1}\cdots S_1)=P(S_{t+1}|S_t)$ ,如果$S_{t+1}$和 $S_t,S_{t-1}\cdots S_1$都有关系的话,计算就会太大了,可能造成无法计算。
状态空间模型
状态空间模型(State Space Model),常应用于 HMM,Kalman Filterm Particle Filter。在这里就是指马尔可夫链 + 观测变量,即Markov Chain + Obervation。
如上图所示,s1-s2-s3为马尔可夫链,a1, a2, a3为观测变量,以a2为例,a2只和s2有关和s1, s3无关。状态空间模型可以说是由马尔可夫链演化而来的模型。记作:
P(St+1∣St)=P(St+1∣S1,⋯,St) 马尔可夫奖励过程
马尔可夫奖励过程(Markov Reward Process),即马尔可夫链+奖励,即:Markov Chain + Reward。如下图:
举个例子,比如说你买了一支股票,然后你每天就会有“收益”,当然了这里的收益是泛化的概念,收益有可能是正的,也有可能是负的,有可能多,有可能少,总之从今天的状态$S_t$到明天的状态 $s_{t+1}$,会有一个reward。记作:
Rs=E[Rt+1∣St] 模型定义
隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。隐马尔可夫模型的形式定义如下:
设$Q$是所有可能的状态集合,$V$是所有可能的观测集合。
Q={q1,q2,⋯,qN},V={v1,v2,⋯,vM} 其中,$N$是可能的状态数,$M$是可能的观测数。
$I$是长度为$T$的状态序列,$O$是对应的观测序列。
I=(i1,i2,⋯,iT),O=(o1,o2,⋯,oT) $A$是状态转移概率矩阵:
A=[aij]N×N 其中,
aij=P(it+1=qj∣it=qi),i=1,2,⋯,N;j=1,2,⋯,N 是在时刻$t$处于状态$q_i$的条件下在时刻$t+1$转移到状态$q_j$的概率。
$B$是观测概率矩阵:
bj(k)=P(ot=vk∣it=qj),k=1,2,⋯,M;j=1,2,⋯,N 是在时刻$t$处于状态$q_j$的条件下生成观测$v_k$的概率。
$\pi$是初始状态概率向量:
π=(πi) 其中,
πi=P(i1=qi),i=1,2,⋯,N 是时刻$t=1$处于状态$q_i$的概率。
$(i)$ 隐马尔可夫模型$\lambda = (\pi,A,B)$
隐马尔可夫模型由初始状态概率向量$\pi$、状态转移概率矩阵$A$以及观测概率矩阵$B$决定。$\pi$和$A$决定状态序列,$B$决定观测序列。因此,隐马尔可夫模型$\lambda$由如下表示:
λ=(π,A,B) $(ii)$ 从定义可知,隐马尔可夫模型作了两个基本假设:
齐次马尔可夫性假设:假设隐藏的马尔科夫链在任意时刻$t$的状态只依赖于其前一时刻的状态,与其他的时刻的状态及观测无关,也与时刻$t$无关。
P(it+1∣i1⋯t,o1⋯t)=P(it+1∣it) 观测独立性假设:假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他观测及状态无关。
P(Ot∣i1⋯t,o1⋯t)=P(Ot∣it) $(iii)$ 三个问题
$(1).$ 概率计算问题。给定$\lambda$,求$P(O|\lambda)$
$(2).$ 学习问题
$(3).$ 预测问题(解码问题)
概率计算问题
直接计算法
状态序列$I=(i_1,i_2,\cdots,i_T)$的概率是:
P(I∣λ)=P(i1⋯T∣λ)=P(i1⋯T−1,iT∣λ)=P(iT∣iT−1)⋅P(i1⋯T∣λ)=πi1ai1i2ai2i3⋯aiT−1iT=πi1t=2∏Tait−1it 状态$i_t$的状态转移概率分布{$a_{i_t,i_{t+1}}$}产生状态$i_{t+1}$
对固定的状态序列$I=(i_1,i_2,\cdots,i_T)$,观测序列$O=(o_1,o_2,\cdots,o_T)$的概率是$P(O|I,\lambda)$:
P(O∣I,λ)=bi1(o1)bi2(o2)⋯biT(oT) 状态$i_t$的观测概率分布$b_{i_t}(k)$生成$o_t$
然后,对所有可能的状态序列$I$求和,得到观测序列$O$的概率$P(O|\lambda)$,即
P(O∣λ)=I∑P(I,O∣λ)=I∑P(I∣λ)P(O∣I,λ)=i1,i2,⋯,iT∑πi1t=2∏Tait−1,itt=1∏Tbit(ot) 由于空间复杂度为$O(TN^T)$,故该算法理论上可行,实际不可行。
前向算法
前向概率定义:给定隐马尔可夫模型$\lambda$,定义到时刻$t$部分观测序列为$o_1,o_2,\cdots,o_t$且状态为$q_i$的概率为前向概率,记作:
αt(i)=P(o1,o2,⋯,ot,it=qi∣λ) 有,
αT(i)=P(O,it=qi∣λ) 算法过程:
输入:隐马尔可夫模型$\lambda$,观测序列$O$;
输出:观测序列概率$P(O|\lambda)$。
α1(i)=πibi(o1),i=1,2,⋯,N
αt+1(j)=P(o1,⋯,ot,ot+1,it+1=qj∣λ)=i=1∑NP(o1,⋯,ot,ot+1,it+1=qj,it=qi∣λ)=i=1∑NP(ot+1∣o1,⋯,ot,it=qi,it+1=qj,λ)⋅P(o1,⋯,ot,it=qi,it+1=qj∣λ)=i=1∑NP(ot+1∣it+1=qj,λ)⋅P(it+1=qj∣o1,⋯,ot,it=qi,λ)⋅P(o1,⋯,ot,it=qi∣λ)=i=1∑NP(ot+1∣it+1=qj,λ)⋅P(it+1=qj∣it=qi,λ)⋅P(o1,⋯,ot,it=qi∣λ)=i=1∑Nbj(ot+1)⋅aij⋅αt(i)=i=1∑N[αt(i)aij]bj(ot+1)
P(O∣λ)=i=1∑NαT(i) 后向算法
后向概率定义:给定隐马尔可夫模型$\lambda$,定义在时刻$t$状态为$q_i$的条件下,从$t+1$到$T$的部分观测序列为$o_{t+1},o_{t+2},\cdots,o_T$的概率为后向概率,记作:
βt(i)=P(ot+1,ot+2,⋯,oT∣it=qi,λ) 算法过程:
输入:隐马尔可夫模型$\lambda$,观测序列$O$;
输出:观测序列概率$P(O|\lambda)$。
βT(i)=1,i=1,2,⋯,N
βt(i)=P(ot+1,ot+2,⋯,oT∣it=qi,λ)=j=1∑NP(ot+1,ot+2,⋯,oT,it+1=qj∣it=qi,λ)=j=1∑NP(ot+1,ot+2,⋯,oT∣it=qi,it+1=qj,λ)⋅P(it+1=qj∣it=qi,λ)=j=1∑NP(ot+2,⋯,oT∣it+1=qj,λ)⋅P(ot+1∣ot+2,⋯,oT,it+1=qj,it=qi,λ)⋅P(it+1=qj∣it=qi,λ)=j=1∑NP(ot+1∣it+1=qj,λ)⋅P(it+1=qj∣it=qi,λ)⋅P(ot+2,⋯,oT∣it+1=qj,λ)=j=1∑Nbj(ot+1)aijβt+1(j)
P(O∣λ)=P(o1,⋯,oT∣λ)=i=1∑NP(o1,⋯,oT,i1=qi∣λ)=i=1∑NP(o1,⋯,oT∣i1=qi,λ)⋅P(i1=qi∣λ)=i=1∑NP(o1∣o2,⋯,oT,i1=qi,λ)⋅P(o2,⋯,oT∣i1=qi,λ)⋅πi=i=1∑NP(o1∣i1=qi,λ)⋅P(o2,⋯,oT∣i1=qi,λ)⋅πi=i=1∑Nbi(o1)β1(i)πi 其他概率与期望值的计算
利用前向概率和后向概率,可以得到关于单个状态和两个状态概率的计算公式。
由前向概率$\alpha_t(i)$和后向概率$\beta_t(i)$定义可知:
αt(i)βt(i)=P(o1,⋯,ot,it=qi∣λ)⋅P(ot+1,⋯,oT∣it=qi,λ)=P(o1,⋯,ot,it=qi∣λ)⋅P(ot+1,⋯,oT∣it=qi,o1,⋯,ot,λ)=P(o1,⋯,ot,ot+1,⋯,oT,it=qi∣λ)=P(O,it=qi∣λ) 给定模型$\lambda$和观测$O$,在时刻$t$处于状态$q_i$的概率,记为:
γt(i)=P(it=qi∣O,λ)=P(O∣λ)P(it=qi,O∣λ)=∑j=1NP(it=qj,O∣λ)P(it=qi,O∣λ)=∑j=1Nαt(j)βt(j)αt(i)βt(i) 给定模型$\lambda$和观测$O$,在时刻$t$处于状态$q_i$且在时刻$t+1$处于状态$q_j$的概率。记为:
ξt(i,j)=P(it=qi,it+1=qj∣O,λ)=P(O∣λ)P(it=qi,it+1=qj,O∣λ)=∑i=1N∑j=1NP(it=qi,it+1=qj,O∣λ)P(it=qi,it+1=qj,O∣λ)=∑i=1N∑j=1Nαt(i)aijbj(ot+1)βt+1(j)αt(i)aijbj(ot+1)βt+1(j) 其中,
P(it=qi,it+1=qj,O∣λ)=P(it=qi,o1,⋯,ot,it+1=qj,ot+1,⋯,oT∣λ)=P(it=qi,o1,⋯,ot∣λ)⋅P(it+1=qj,ot+1,⋯,oT∣it=qi,o1,⋯,ot,λ)=αt(i)⋅P(it+1=qj∣it=qi,O,λ)⋅P(ot+1,⋯,oT∣it+1=qj,it=qi,o1,⋯,ot,λ)=αt(i)⋅aij⋅P(ot+1,ot+2,⋯,oT∣it+1=qj,it=qi,o1,⋯,ot,λ)=αt(i)⋅aij⋅P(ot+1∣it+1=qj,it=qi,o1,⋯,ot)⋅P(ot+2,⋯,oT∣it+1=qj,it=qi,o1,⋯,ot,ot+1)=αt(i)⋅aij⋅P(ot+1∣it+1)⋅P(ot+2,⋯,oT∣it+1=qj)=αt(i)aijbj(ot+1)βt+1(j) 将$\gamma_t(i)$和$\xi_t(i,j)$对各个时刻的$t$求和,可以得到一些有用的期望值。
$(1).$ 在观测$O$下状态$i$出现的期望值
t=1∑Tγt(i) $(2).$ 在观测$O$下由状态$i$转移的期望值
t=1∑T−1γt(i) $(3).$ 在观测$O$下由状态$i$转移到状态$j$的期望值
t=1∑Tξt(i,j) 学习问题
隐马尔可夫模型的学习,根据训练数据是包括观测序列和对应的状态序列还是只有观测序列,可以分别由监督学习与非监督学习实现。
监督学习算法
假设已给训练数据包含$S$个长度相同的观测序列和对应的状态序列${(O_1,I_1),(O_2,I_2),\cdots,(O_S,I_S)}$,那么可以利用极大似然估计法来估计隐马尔可夫模型的参数。
算法过程:
设样本中时刻$t$处于状态$i$时刻$t+1$转移到状态$j$的频数为$A_{ij}$,那么状态转移概率$a_{ij}$的估计是:
aij^=∑i=1NAijAij,i=1,2,⋯,N;j=1,2,⋯,N
设样本中状态为$j$并观测为$k$的频数是$B_{jk}$,那么状态为$j$观测为$k$的概率$b_j(k)$的估计是:
bj(k)^=∑k=1MBjkBjk,j=1,2,⋯,N;k=1,2,⋯,M 初始化状态概率$\pi_i$的估计$\hat{\pi_i}$为$S$个样本中初始状态为$q_i$的概率
由于监督学习需要使用训练数据,而人工标注训练数据往往代价很高,有时就会利用非监督学习的方法。
非监督学习算法: $Baum-Welch$算法
假设给定训练数据只包含$S$个长度为$T$的观测序列${O_1,O_2,\cdots,O_S}$而没有对应的状态序列,目标是学习隐马尔可夫模型$\lambda=(A,B,\pi)$的参数。将观测序列数据看做观测数据$O$,状态序列数据看做不可预测的隐数据$I$,那么因马尔可夫模型事实上是一个含有隐变量的概率模型:
P(O∣λ)=I∑P(O∣I,λ)P(I∣λ) 该模型的参数可以由$EM$算法实现。
算法过程:
所有观测数据写成$O=(o_1,o_2,\cdots,o_T)$,所有隐数据写成$I=(i_1,i_2,\cdots,i_T)$,完全数据是$(O,I)=(o_1,o_2,\cdots,o_T,i_1,i_2,\cdots,i_T)$。完全数据的对数似然函数是$log\ P(O,I|\lambda)$。
$EM$算法的$E$步:求$Q$函数$Q(\lambda,\lambda^{(t)})$
Q(λ,λ(t))=I∑lop P(O,I∣λ)P(O,I∣λ(t)) 其中,$\lambda^{(t)}$是隐马尔可夫模型参数的当前估计值,$\lambda$是要极大化的隐马尔可夫模型参数。
P(O,I∣λ)=πi1bi1(o1)ai1,i2bi2(o2)⋯aiT−1,iTbiT(oT)=πi1t=2∏Tait−1,itt=1∏Tbit(ot) 于是:
Q(λ,λ(t))=I∑[log πi1t=2∏Tait−1,itt=1∏Tbit(ot)]P(O,I∣λ(t))=I∑[log πi1+t=2∑Tlog ait−1,it+t=1∑Tlog bit(ot)]P(O,I∣λ(t)) $EM$算法的$M$步:极大化$Q$函数$Q(\lambda,\lambda^{(t)})$求模型参数$A$,$B$,$\pi$
λ(t+1)=argmaxλQ(λ,λ(t))=argmaxλI∑[log πi1+t=2∑Tlog ait−1,it+t=1∑Tlog bit(ot)]P(O,I∣λ(t)) 由上可知,三个参数分别单独在三个部分,在求解其中一个时,可以忽略掉其他两个,单独讨论。
对于$\pi$:
I∑πi1P(O,I∣λ)=i=1∑Nlog πiP(O,i1=i∣λ(t)) 由于$\pi$是一个概率分布,因此有一个约束条件$\sum_{i=1}^N \pi_i=1$,于是利用拉格朗日乘子法,构造拉格朗日函数,有:
i=1∑Nlog πiP(O,i1=i∣λ(t))+γ(i=1∑Nπi−1) 对其求偏导数并令结果为0,有:
∂πi∂[i=1∑Nlog πiP(O,i1=i∣λ(t))+γ(i=1∑Nπi−1)]=0 得:
πi1P(O,i1=i∣λ(t))+γP(O,i1=i∣λ(t))+γπi=0=0 同时进行连加,得到$\gamma$:
i=1∑NP(O,i1=i∣λ(t)+γπi)=P(O∣λ(t))+γ=0 有:
γ=−P(O∣λ(t)) 带入$P(O,i_1=i|\lambda^{(t)}) + \gamma\pi_i=0$得:
πi(t+1)=P(O∣λ(t))P(O,i1=i∣lambda(t)) 对于$a_{ij}$:
I∑t=2∑Tlog ait−1,itP(O,I∣λ)=i=1∑Nj=1∑Nt=1∑T−1log aijlog P(O,it=i,it+1=j∣λ(t)) 由于$A$是一个概率分布的矩阵,其约束条件为$\sum_{j=1}^N a_{ij}=1$,与上述相同,利用拉格朗日乘子法,构造拉格朗日函数,求出得:
aij(t+1)=∑t=1T−1P(O,it=i∣λ(t))P(O,it=i,it+1=j∣λ(t) 对于$b_j(k)$:
I∑[t=1∑Tlog bit(ot)]P(O,I∣λ(t))=j=1∑Nt=1∑Tlog bj(ot)P(O,it=j∣λ(t)) 由于$B$是一个概率分布的矩阵,其约束条件为$\sum_{k=1}^M b_j(o_k)=1$,与上述相同,利用拉格朗日乘子法,构造拉格朗日函数,求出得:
∂bj(k)∂[j=1∑Nt=1∑Tlog bj(ot)P(O,it=j∣λ(t))+i=1∑Nηi(k=1∑M(bj(k)−1)]t=1∑Tbj(k)1P(O,it=j∣λ(t))I(ot=vk)+i=1∑ηi=0=0 注意,只有在$o_t=v_k$时,$b_j(o_t)$对$b_j(k)$的偏导数才不为0,以$I(o_t=v_k)$表示,该函数的作用是满足条件值为1,否则为0。
于是:
bj(k)(t+1)=−∑i=1ηi∑t=1TP(O,it=j∣λ(t))I(ot=vk) $Baum-Welch$模型的参数估计公式
利用其它概率与期望值的计算的公式,进行改写为如下式子:
aijbj(k)πi=∑t=1Tγt(i)∑t=1Tξt(i,j)=∑t=1Tγt(j)∑t=1,ot=vkTγt(j)=γ1(i) 预测算法
求概率最大的状态序列。
维特比算法
利用动态规划求解隐马尔可夫模型预测问题,即用动态规划求概率最大路径(最优路径)。这时一条路径对应着一个状态序列。
定义在时刻$t$状态为$i$的所有单个路径$(i_1,i_2,\cdots,i_t)$中概率最大值为:
δt(i)=maxi1,i2,⋯,it−1P(it=i,it−1,⋯,i1,ot,⋯,o1∣λ),i=1,2,⋯,N 由定义可得变量$\delta$的递推公式为:
δt+1(i)=maxi1,i2,⋯,itP(it+1=i,it,⋯,i1,ot+1,⋯,o1∣λ)=max1≤j≤N[δt(j)aji]bi(ot+1),i=1,2,⋯,N;t=1,2,⋯,T−1 定义在时刻$t$状态为$i$的所有单个路径$(i_1,i_2,\cdots,i_{t-1},i)$中概率最大的路径的第$t-1$个结点为:
ψt(i)=argmax1≤j≤N[δt−1(j)aji],i=1,2,⋯,N 算法过程:
输入:模型$\lambda=(A,B,\pi)$和观测$O=(o_1,o_2,\cdots,o_T)$;
输出:最优路径$I^=(i^_1,i^_2,\cdots,i^_T)$。
δ1(i)=πibi(o1),i=1,2,⋯,Nψ1(i)=0,i=1,2,⋯,N
δt(i)=max1≤j≤N[δt−1(j)aji]bi(ot),i=1,2,⋯,Nψt(i)=argmax1≤j≤N[δt−1(j)aji],i=1,2,⋯,N
P∗=max1≤i≤NδT(i)iT∗=argmax1≤i≤N[δT(i)] 最有路径回溯,对$t=T-1,T-2,\cdots,1$
it∗=ψt+1(it+1∗) 求得最优路径$I^=(i^_1,i^_2,\cdots,i^_T)$。
代码实现