当前位置:文档之家› 马尔可夫模型介绍(从零开始)

马尔可夫模型介绍(从零开始)

马尔可夫模型介绍(从零开始)(一):定义及简介:介绍(introduction)通常我们总是对寻找某一段时间上的模式感兴趣,这些模式可能出现在很多领域:一个人在使用电脑的时候使用的命令的序列模式;一句话中的单词的序列;口语中的音素序列。

总之能产生一系列事件的地方都能产生有用的模式。

考虑一个最简单的情况:有人(柯南?)试图从一块海藻来推断天气的情况。

一些民间的传说认为“soggy”的海藻意味着潮湿(wet)的天气,“dry”的海藻预示着晴朗(sun)。

如果海藻处于中间状态“damp”,那就无法确定了。

但是,天气的情况不可能严格的按照海藻的状态来变化,所以我们可以说在一定程度上可能是雨天或是晴天。

另一个有价值的信息是之前某些天的天气情况,结合昨天的天气和可以观察到的海藻的状态,我们就可以为今天的天气做一个较好的预报。

这是在我们这个系列的介绍中一个非常典型的系统。

∙首先我们介绍一个可以随时间产生概率性模型的系统,例如天气在晴天或者雨天之间变动。

∙接下来我们试图去预言我们所不能观察到的"隐形"的系统状态,在上面的例子中,能被观察到的序列就是海藻的状态吗,隐形的系统就是天气情况∙然后我们看一下关于我们这个模型的一些问题,在上面那个例子中,也许我们想知道1. 如果我们观察一个星期每一天的海藻的状态,我们是否能知相应的其天气情况2. 如果给出一个海藻状态的序列,我们是否能判断是冬天还是夏天?我们假设,如果海藻干(dry)了一段时间,那就意味着是夏天如果海藻潮湿(soggy)了一段时间,那可能就是冬天。

(二):生成模式(Generating Patterns)∙确定的模式(Deterministic Patterns)考虑交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。

这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替我们可以注意到,每一个状态都只依赖于此前的状态,如果当前的是绿灯,那么接下来就是橙灯,这就是一个确定型的系统。

确定型的系统更容易理解和分析,只要这些状态转移都是已知的。

不确定的模式(Non-Deterministic Patterns)为了让之前那个天气的例子更贴近现实,我们可以添加一个状态-多云。

和交通灯的例子不同,我们不能得到一个确定的状态转移系统,但是我们还是希望能得到一个天气的模式。

一种办法就是假设这个模型的每个状态都只依赖于之前的状态,这个假设被称为马尔科夫假设,这个假设可以大大的简化这个问题。

显然,这个假设可能是一个非常糟糕的假设,导致很多重要的信息都丢失了。

当涉及到天气的时候,马尔科夫假设假设如果我们知道之间一些天的天气的信息,不考虑风力、气压等因素,那么我们就能预言今天的天气。

当然,和其他许多例子一样,这个列子也是不合实际的。

但是,这样一个简化的系统可以有利于我们的分析,所以我们通常接受这样的假设,因为我们知道这样的系统能让我们获得一些有用的信息,尽管不是十分准确的。

一个马尔科夫过程就是指过程中的每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移的状态的数目。

最简单的马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之间的那一个状态。

注意这和确定型的系统不一样,因为这种装因是有概率的,而不是确定的。

下面这个图展示了天气这个例子中所有可能的一阶转移:注意一个含有M个状态的一阶过程有M的平方个状态转移。

每一个转移的概率叫做状态转移概率(state transition probability),就是从一个状态转移到另一个状态的概率。

这所间的变化而变化,这又是一个不现实但很重要的假设。

下面就是一个状态转移矩阵的列子:为了初始化这样一个系统,我们需要一个初始的概率向量:是一个简单的一阶马尔科夫过程,并且他们两两之间都可以相互转换。

来说,用λ={ π, A, B} 表示HMM参数。

被分别观察成集中不同的可以观察的状态的概率,在天气的例子中,这个矩阵如下图:(四):隐马尔科夫模型(Hidden Markov Models)定义:隐马尔科夫模型可以用一个三元组(π,A,B)来定义:1. π 表示初始状态概率的向量2. A =(aij)(隐藏状态的)转移矩阵P(Xit|Xj(t-1))t-1时刻是j而t时刻是i的概率3. B =(bij)混淆矩阵P(Yi|Xj)在某个时刻因隐藏状态为Xj而观察状态为Yi的概率值得注意的是,在状态转移矩阵中的每个概率都是时间无关的,也就是说我们假设这个概率是固定的,不随时间变化。

当然,这是马尔科夫模型最不切合实际的一个假设。

隐马尔科夫模型的使用如果一个模型可以被描述成一个隐马尔科夫模型,有三个问题可以得到解决。

前两个是模式识别的问题:1)根据隐马尔科夫模型得到一个可观察状态序列的概率(评价);2)找到一个隐藏状态的序列使得这个序列产生一个可观察状态序列的概率最大(解码)。

第三个问题就是根据一个可以观察到的状态序列集产生一个隐马尔科夫模型(学习)。

1.评价假设我们有很多隐马尔科夫模型(也就是说一个三元组的集合)描述不同的系统和一个可观察状态序列集。

我们也许想知道哪一个隐马尔科夫模型最可能产生某个可观察状态序列。

比如说,我们也许有一个海藻的“Summer”模型和一个“Winter”模型,因为海藻在夏天和冬天的状态应该是不同的,我们希望根据一个可观察状态(海藻的潮湿与否)序列来判断现在是夏天还是冬天。

我们可以使用前向算法来计算在某个特定的HMM下一个可观察序列的概率,然后据此找到最可能的模型。

这种类型的应用通常出现在语音设别中,通常我们会使用很多HMM,每一个针对一个特别的单词。

一个可观察状态的序列是从一个可以听到的单词向前得到的,然后这个单词就可以通过找到满足这个可观察状态序列的最大概率的HMM来识别。

2.解码根绝可观察状态的序列找到一个最可能的隐藏状态序列。

和上面一个问题相似的并且更有趣的是根据可观察序列找到隐藏序列。

在很多情况下,我们队隐藏状态更有兴趣,因为其包含了一些不能被直接观察到的有价值的信息。

比如说在海藻和天气的例子中,一个隐居的人只能看到海藻的状态,但是他想知道天气的状态。

这时候我们就可以使用Viterbi算法来根据可观察序列得到最优可能的隐藏状态的序列,当然前提是已经有一个HMM。

1.穷举搜索加入给定一个HMM,也就是说(,A,B)这个三元组已知,我们想计算出某个可观察序列的概率。

考虑天气的例子,我们知道一个描述天气和海藻状态的HMM,而且我们还有一个海藻状态的序列。

假设这个状态中的某三天是(dry,damp,soggy),在这三天中的每一天,天气都可能是晴朗,多云或者下雨,我们可以用下图来描述观察序列和隐藏序列:假设一个T时间段的可观察序列是:下面这张图表示了一个观察序列(dry,damp,soggy)的一阶转移我们用t(j)来表示在t时刻是状态j的概率,t ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t)。

是通过下列路径计算得到的:2b.计算t = 1时候的部分概率计算部分概率的公式是:t ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t)当t = 1的时候,没有路径到某个状态,所以这里是初始概率,Pr( state | t = 1) = (st ate),这样我们就可以计算t=1时候的部分概率为:2c.计算t > 1时候的部分概率还是看计算部分概率的公式:t ( j )= Pr( observation | hidden state is j ) x Pr(all pa ths to state j at time t)之前的所有路径,所以在t+1时刻只需要根据t时刻的概率来计算就可以了:2d.降低计算复杂度我们可以比较穷举和递归算法的复杂度。

假设有一个HMM l =(,A,B),其中有n个隐藏状态,我们有一个长度为T的观察序列。

穷举算法的需要计算所有可能的隐藏序列:需要计算:每一个y就是观察状态。

在t=1时刻的中间节点的部分状态可以用下面的公式计算:对于t>1的情况,部分概率的计算可以用下面的公式:算公式为使用天气的例子,计算t = 2时刻的cloud状态的概率方法如图:我们可以在下图中看到每个状态和观察的关系。

2.使用递归降低复杂度在给定了一个可观察序列和HMM的情况下,我们可以考虑递归的来寻找最可能的隐藏序列。

我们可以先定义一个部分概率,既是到达某个中间状态的概率。

接下来我们将讨论如果计算t = 1和t = n(n> 1)的部分概率。

三个状态都有一个如下的最可能的路径:我们可以称这些路径为部分最优路径。

这些部分最优路径都有一个概率,也就是部分概率。

和前向算法中的部分概率不一样,这里的概率只是一个最可能路径的概率,而不是所有路径的概率和。

我们可以用(i,t)来表示在t时刻,到状态i的所有可能的序列(路径)中概率最大的序列的概率,部分最优路径就是达到这个最大概率的路径,对于每一个时刻的没一个状态都有这样一个概率和部分最优路径。

时刻某个状态的概率和这个状态到可观察序列k1的转移概率:有个了这个公式,我们就可以利用t - 1时刻的结果和状态转移矩阵和混淆矩阵的数据:率的计算公式:考虑下图在每一个中间状态和结束状态都有一个部分最优概率(i,t)。

但是我们的目的是找到最可能的隐藏状态序列,所以我们需要一个方法去记住部分最优路径的每一个节点。

考虑到要计算t时刻的部分概率,我们只需要知道t-1时刻的部分概率,所以我们只需要记录那个导致了t时刻最大部分概率的的状态,也就是说,在任意的时刻,系统都必须处在一个能在下一时刻产生最大部分概率的状态。

我们可以利用一个后向指针来记录导致某个状态最大部分概率的上一个状态,形式化的描述为:2. 可以根据可观察序列找到最优的隐藏序列,这个的计算公式是:where这里就是一个从左往右翻译的过程,通过前面的翻译结果得到后面的结果,起始点是初始向量。

(七):前向后向算法(Forward-Backward Algorithm)和隐马尔科夫模型相关的有趣的问题就是判断一个模型的实用性(前向算法)和找到一个隐藏在可观察序列背后的隐藏序列(Viterbi算法)。

当然,这两个过程都需要知道HMM 的一些信息,比如转移矩阵,混淆矩阵以及初始的π向量。

但是在很多实际的情况下,HMM不能被直接的判断,这就变成了一个学习问题,前向后向算法可以根据一系列可观察序列来对HMM进行评测。

相关主题