ml11 隐马尔可夫模型 (HMM)

当观测背后隐藏着不可见的状态序列，如何从可见的"果"推断出隐藏的"因"？HMM 是时序概率建模的经典框架，三大问题贯穿始终：评估、解码、学习。

一、马尔可夫链基础

1.1 马尔可夫性质

一个随机过程 ${S_{t}}_{t = 1}^{T}$ 满足马尔可夫性质（一阶），如果：

P (S_{t + 1} | S_{t}, S_{t - 1}, \dots, S_{1}) = P (S_{t + 1} | S_{t})

即：给定现在，未来与过去条件独立。当前状态 $S_{t}$ 已经包含了预测未来的全部信息。

直觉：棋类游戏是马尔可夫性的完美体现——你只需要知道当前棋盘的状态，不需要记住之前 50 步的走法历史，就能决定下一步最优策略。

1.2 转移矩阵与平稳分布

马尔可夫链由状态空间 ${1, 2, \dots, N}$ 和转移矩阵 $A$ 定义：

A_{i j} = P (S_{t + 1} = j | S_{t} = i)

转移矩阵满足行和为 1（每一行是一个概率分布）： $\sum_{j} A_{i j} = 1$ 。

平稳分布（Stationary Distribution） $π$ 满足：

π = π A, \sum_{i} π_{i} = 1, π_{i} \geq 0

直观理解：如果当前状态服从 $π$ ，那么无论经过多少步转移，状态分布仍然是 $π$ ——就像一个"平衡点"。

1.3 细致平衡（Detailed Balance）

一个更强的条件是细致平衡：

π_{i} A_{i j} = π_{j} A_{j i} \forall i, j

细致平衡意味着：从状态 $i$ 到 $j$ 的质量流等于从 $j$ 到 $i$ 的质量流。细致平衡是平稳分布存在的充分条件（MCMC 的设计正是利用了这一点）。

二、隐马尔可夫模型结构

2.1 模型定义

HMM 是一个双重随机过程：

隐藏层：一个不可观测的一阶马尔可夫链 ${Z_{t}}$ （状态序列）， $Z_{t} \in {1, \dots, N}$
观测层：在每个时刻 $t$ ，隐藏状态 $Z_{t}$ 生成一个观测 $X_{t}$

HMM 由三个参数完全确定：

参数	符号	含义
初始状态分布	$π = (π_{i})$	$π_{i} = P (Z_{1} = i)$ ，链的起始状态分布
状态转移矩阵	$A = (a_{i j})$	$a_{i j} = P (Z_{t + 1} = j ∣ Z_{t} = i)$
发射概率	$B = (b_{i} (o))$	$b_{i} (o) = P (X_{t} = o ∣ Z_{t} = i)$

记完整的 HMM 为 $λ = (A, B, π)$ 。

HMM 的图形化表示（格子图/trellis diagram）：上方一行圆圈表示隐藏状态序列 Z₁→Z₂→Z₃→…→Z_T，箭头表示转移 a_ij；下方一行方块表示观测序列 X₁, X₂, …, X_T，从每个 Z_t 向下指向 X_t 的箭头标注 b_i(o)。初始分布 π 从左侧箭头指向 Z₁

2.2 HMM 的三个基本问题

HMM 理论框架的三个核心问题（Rabiner, 1989）：

问题	输入	输出	算法
评估（Evaluation）	观测序列 $X$ + 模型 $λ$	$P (X ∣ λ)$	前向算法（Forward Algorithm）
解码（Decoding）	观测序列 $X$ + 模型 $λ$	最可能的状态序列 $Z^{*}$	维特比算法（Viterbi Algorithm）
学习（Learning）	观测序列 $X$ （+ 初始模型）	最优参数 $λ^{*}$	Baum-Welch 算法（EM for HMM）

三、前向算法（Forward Algorithm）——评估问题

3.1 问题

给定观测序列 $X = (x_{1}, \dots, x_{T})$ 和模型 $λ$ ，计算 $P (X ∣ λ)$ 。

3.2 朴素方法的指数爆炸

朴素计算需要枚举所有可能的状态序列：

P (X ∣ λ) = \sum_{Z} P (X, Z ∣ λ) = \sum_{z_{1}, \dots, z_{T}} π_{z_{1}} b_{z_{1}} (x_{1}) \prod_{t = 2}^{T} a_{z_{t - 1} z_{t}} b_{z_{t}} (x_{t})

状态序列有 $N^{T}$ 种可能—— $N = 5, T = 100$ 时就是 $5^{100} \approx 7.9 \times 10^{69}$ ，完全不可行。

3.3 前向算法的动态规划

前向算法利用 HMM 的马尔可夫结构，通过动态规划将复杂度降为 $O (N^{2} T)$ 。

定义前向概率 $α_{t} (i)$ ：

α_{t} (i) = P (x_{1}, x_{2}, \dots, x_{t}, Z_{t} = i ∣ λ)

即在时刻 $t$ 处于状态 $i$ 且观测到序列 $x_{1 : t}$ 的联合概率。

递推公式：

初始化（ $t = 1$ ）：

α_{1} (i) = π_{i} \cdot b_{i} (x_{1})

递推（ $t = 2, \dots, T$ ）：

α_{t} (j) = [\sum_{i = 1}^{N} α_{t - 1} (i) \cdot a_{i j}] \cdot b_{j} (x_{t})

终止：

P (X ∣ λ) = \sum_{i = 1}^{N} α_{T} (i)

$前向算法递推图示：格子图（trellis）显示 t-1 时刻所有状态 i 以权重 α_{t-1}(i) 指向 t 时刻状态 j，每条边标注转移概率 a_{ij}，t 时刻节点 j 标注 α_t(j) = [Σ_i α_{t-1}(i)·a_{ij}] · b_j(x_t)$

3.4 前向-后向算法

后向概率 $β_{t} (i)$ 对称地定义：

β_{t} (i) = P (x_{t + 1}, \dots, x_{T} ∣ Z_{t} = i, λ)

即在时刻 $t$ 处于状态 $i$ 的条件下，观测到未来序列 $x_{t + 1 : T}$ 的概率。

递推（从后往前， $t = T - 1, \dots, 1$ ）：

β_{t} (i) = \sum_{j = 1}^{N} a_{i j} \cdot b_{j} (x_{t + 1}) \cdot β_{t + 1} (j)

初始： $β_{T} (i) = 1$ （没有未来观测时概率为 1）

前向-后向算法联合使用时可以计算"在时刻 $t$ 处于状态 $i$ "的后验概率（这是 Baum-Welch 学习算法的基础）：

γ_{t} (i) = P (Z_{t} = i ∣ X, λ) = \frac{α_{t} (i) β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) β_{t} (j)}

四、维特比算法（Viterbi Algorithm）——解码问题

4.1 问题

找到最有可能生成观测序列 $X$ 的隐藏状态序列：

Z^{*} = \arg max_{Z} P (Z ∣ X, λ) = \arg max_{Z} P (X, Z ∣ λ)

4.2 Viterbi 算法

与前向算法结构相似，但用最大化替换了求和。

定义 $δ_{t} (i)$ 为"到时刻 $t$ 为止，以状态 $i$ 结尾的最优路径的概率"：

δ_{t} (i) = max_{z_{1}, \dots, z_{t - 1}} P (x_{1}, \dots, x_{t}, z_{1}, \dots, z_{t - 1}, Z_{t} = i ∣ λ)

递推：

初始化：

δ_{1} (i) = π_{i} \cdot b_{i} (x_{1})

递推（ $t = 2, \dots, T$ ）：

δ_{t} (j) = {max}_{i = 1}^{N} [δ_{t - 1} (i) \cdot a_{i j}] \cdot b_{j} (x_{t})

同时记录"回溯指针"（backpointer）：

ψ_{t} (j) = \arg max_{i} [δ_{t - 1} (i) \cdot a_{i j}]

终止：最优路径概率为 $max_{i} δ_{T} (i)$ ，从对应状态出发通过 $ψ_{t}$ 回溯得到完整最优路径。

前向 vs Viterbi 对比：前向算法用 sum（ $\sum_{i}$ ，边际化所有可能的过去路径），Viterbi 用 max（ $max_{i}$ ，只保留一条最优路径）。两者的递推结构完全相同，只是操作符从 sum 变为 max。

$Viterbi 算法格子图：展示 δ_t(j) 的递推——t-1 时刻两个状态（红色标注 δ_{t-1}(1) 和 δ_{t-1}(2)），分别以概率 a_{1j} 和 a_{2j} 指向 t 时刻状态 j，加粗的箭头标注取 max 操作。底部展示完整回溯路径（红色加粗线条从右到左逆序连接）$

五、Baum-Welch 算法——学习问题

5.1 EM 框架

Baum-Welch 算法是 EM 算法在 HMM 中的特例。隐变量是状态序列 $Z$ ，观测是 $X$ 。

5.2 E 步：计算期望充分统计量

用当前参数 $λ^{old}$ 计算两个关键量：

状态占用概率 $γ_{t} (i)$ （前向-后向联合）：

γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{\sum_{j} α_{t} (j) β_{t} (j)}

状态转移概率 $ξ_{t} (i, j)$ ：

ξ_{t} (i, j) = P (Z_{t} = i, Z_{t + 1} = j ∣ X, λ) = \frac{α_{t} (i) \cdot a_{i j} \cdot b_{j} (x_{t + 1}) \cdot β_{t + 1} (j)}{\sum_{p, q} α_{t} (p) \cdot a_{p q} \cdot b_{q} (x_{t + 1}) \cdot β_{t + 1} (q)}

5.3 M 步：更新参数

π_{i}^{new} = γ_{1} (i)

a_{i j}^{new} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}

对于离散观测：

b_{i} (v_{k})^{new} = \frac{\sum_{t = 1}^{T} γ_{t} (i) \cdot I [x_{t} = v_{k}]}{\sum_{t = 1}^{T} γ_{t} (i)}

直觉： $γ_{t} (i)$ 是"软计数"——不是简单地统计"状态 $i$ 出现了几次"，而是每个时刻以一定概率 $γ_{t} (i)$ 算作"部分出现"。这比硬分配更加精细。

六、HMM 在词性标注（POS Tagging）中的应用

6.1 POS Tagging 作为 HMM

词性标注（Part-of-Speech Tagging）是 HMM 的经典应用：

隐藏状态：词性标签（名词、动词、形容词...）
观测：具体的词汇
转移概率 $a_{i j}$ ：一个词性后面跟另一个词性的概率（如 "形容词 → 名词" 比 "形容词 → 形容词" 更常见）
发射概率 $b_{i} (w)$ ：给定词性 $i$ ，产生词 $w$ 的概率（如 "run" 作为动词比作为名词更常见）

6.2 Viterbi 解码 POS

给定一个句子（观测序列），Viterbi 算法可以找到最可能的词性标注：

Obs:    The    cat    sat    on    the    mat
        ↓      ↓      ↓      ↓      ↓      ↓
State:  DET   NOUN   VERB   PREP  DET    NOUN

模型参数 $A$ 和 $B$ 可以通过标注语料库学习（Baum-Welch），也可以直接从标注数据中估计（最大似然）。

七、HMM 的实用考量

7.1 数值下溢

前向/后向算法中涉及大量概率连乘（每个 $0 < a < 1$ ），当 $T$ 很大时概率值会下溢到 0。解决方案：使用 log 空间或缩放（scaling）。

缩放版本的前向算法：

{\tilde{α}}_{t} (j) = \frac{α_{t} (j)}{\sum_{i} α_{t} (i)} = \frac{(\sum_{i} {\tilde{α}}_{t - 1} (i) \cdot a_{i j}) \cdot b_{j} (x_{t})}{c_{t}}

其中 $c_{t} = \sum_{i} α_{t} (i)$ 是归一化常数。最终 $\log P (X ∣ λ) = \sum_{t = 1}^{T} \log c_{t}$ 。

7.2 状态数量选择

HMM 的状态数 $N$ 是超参数，通常通过以下方式选择：

领域知识：如 POS tagging 中词性标签的数量是已知的
交叉验证：在留出集上评估困惑度（perplexity）
信息准则：如 BIC（贝叶斯信息准则）

7.3 HMM 的局限性

局限	说明
一阶马尔可夫假设	当前状态只依赖前一个状态，可能不足以捕捉长期依赖
观测条件独立	$X_{t}$ 只依赖 $Z_{t}$ ，与 $X_{t - 1}$ 独立（在 NLP 中句子上下文很重要）
离散状态	标准 HMM 的状态是离散的，连续状态需用卡尔曼滤波
指数长度分布	HMM 隐含的状态持续时间的分布是几何分布，可能不符合实际

本章总结

概念	一句话
马尔可夫性质	$P (S_{t + 1} \| S_{t}, \dots) = P (S_{t + 1} \| S_{t})$ ——未来仅依赖现在
HMM 三元组	$(A, B, π)$ ：转移 + 发射 + 初始分布
前向算法	$α_{t} (j) = [\sum_{i} α_{t - 1} (i) a_{i j}] b_{j} (x_{t})$ ，动态规划 $O (N^{2} T)$
后向算法	$β_{t} (i) = \sum_{j} a_{i j} b_{j} (x_{t + 1}) β_{t + 1} (j)$
Viterbi 算法	用 max 替换 sum 的前向算法 + 回溯指针
Baum-Welch	EM for HMM：E 步计算 $γ_{t} (i)$ 和 $ξ_{t} (i, j)$ ，M 步更新参数
数值下溢	用缩放或 log 空间防止概率连乘的下溢
POS Tagging	HMM 经典应用：隐藏状态 = 词性，观测 = 词汇
格子图（Trellis）	HMM 的"展开图"，展示所有可能状态路径的时间网格

📥 Code

File	View	Download
demo.py	Open	Download
exercise.py	Open	Download

参考

Rabiner, L. R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2), 257-286. [doi:10.1109/5.18626]
Baum, L. E., Petrie, T., Soules, G., & Weiss, N. (1970). A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains. The Annals of Mathematical Statistics, 41(1), 164-171. [doi:10.1214/aoms/1177697196]
Viterbi, A. J. (1967). Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm. IEEE Transactions on Information Theory, 13(2), 260-269. [doi:10.1109/TIT.1967.1054010]
Jurafsky, D. & Martin, J. H. (2024). Speech and Language Processing (3rd ed.). Chapter 8: Sequence Labeling for Parts of Speech and Named Entities. [web]
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society: Series B, 39(1), 1-38. [doi:10.1111/j.2517-6161.1977.tb01600.x]

ml11 隐马尔可夫模型 (HMM) ​

一、马尔可夫链基础 ​

1.1 马尔可夫性质 ​

1.2 转移矩阵与平稳分布 ​

1.3 细致平衡（Detailed Balance） ​

二、隐马尔可夫模型结构 ​

2.1 模型定义 ​

2.2 HMM 的三个基本问题 ​

三、前向算法（Forward Algorithm）——评估问题 ​

3.1 问题 ​

3.2 朴素方法的指数爆炸 ​

3.3 前向算法的动态规划 ​

3.4 前向-后向算法 ​

四、维特比算法（Viterbi Algorithm）——解码问题 ​

4.1 问题 ​

4.2 Viterbi 算法 ​

五、Baum-Welch 算法——学习问题 ​

5.1 EM 框架 ​

5.2 E 步：计算期望充分统计量 ​

5.3 M 步：更新参数 ​

六、HMM 在词性标注（POS Tagging）中的应用 ​

6.1 POS Tagging 作为 HMM ​

6.2 Viterbi 解码 POS ​

七、HMM 的实用考量 ​

7.1 数值下溢 ​

7.2 状态数量选择 ​

7.3 HMM 的局限性 ​

本章总结 ​

📥 Code ​

参考 ​