当前位置:
文档之家› 基于统计的自然语言处理的数学基础
基于统计的自然语言处理的数学基础
40
熵与计算语言学 Kullback-Leibler
Divergence
相关熵 ( KL (Kullback-Leibler距离)
D(p|| q) p(x)log p(x)
xX
q(x)
Ep
log
p(X) q(X)
2020/6/21
41
熵与计算语言学
衡量了两种概率分布的差别 目的: 是相关熵最小化已得到更为精确的 模型
p(x)log2
xX
1 p(x)
E
log2
1 p(x)
H(X) 0
也就是说,如果结果是确定
H(X) 0 p(X) 1
性的,那么信息源没有提供 任何信息
2020/6/21
ቤተ መጻሕፍቲ ባይዱ
34
联合熵
两个随机变量 X,Y的联合熵 :确定随机变 量X与Y的值所需的平均信息量
H(X,Y) p(x, y)logp(X, Y) xX yY
p)
n r
pr
(1
p)nr
2020/6/21
21
泊松分布(有参数)
离散型
泊松分布:一个参数
P(k, ) e k
k!
在某一固定大小的范围(或者时间段)内, 某种特定类型事件的分布,例如:在一个篇 幅内出现的打字错误,在一页内的某个词 的分布等等
2020/6/21
22
正态分布 (高斯分布) (有参数)
P(D|M) is the marginal likelihood
2020/6/21
29
Frequentist vs. Bayesian(bypass)
Bayesian
*
M argmaxP(M) P(D|M,θ)P(θ|M)dθ M
Frequentist
*
θ argmaxP(D|M, θ)
*
M
M
MAP!
MAP is maximum a posteriori
2020/6/21
28
贝叶斯统计(bypass)
M 是一个概率分布;为了充分描述这一模 型,我们需要分布 M 和参数 θ
*
M argmaxP(D|M)P(M)
M
P(D|M) P(D, θ|M)dθ P(D|M,θ)P(θ|M)dθ
基于统计的自然语言处理的 数学基础
初等概率理论
2020/6/21
By Barbara Rosario
1
动机
统计计算语言处理的目的在于以自然语 言为处理对象进行统计推导 统计推导包括两方面内容:
收集自然语言词汇(或者其他语言单位)的分 布情况
根据这些分布情况进行统计推导
2020/6/21
2
动机
2020/6/21
31
贝叶斯决策
假设我们有两个模型 M1 和 M2 ; 我们需 要决定哪一个更好(更加符合实际的数据)
P(M1 |D) P(D|M1 )P(M1 ) P(M2 |D) P(D|M2 )P(M2 )
if
P(M1 |D) > 1 P(M2 |D)
i.e P(M1 |D) > P(M2 |D)
这类统计推理的例子之一就是语言的模 型化(也就是说如何根据前面出现的词预 测下一个词的出现) 为此我们需要构造语言的模型 概率理论能够帮助我们找到这样的模型
2020/6/21
3
概率理论
某事件发生的可能性有多少? 样本空间 Ω 是一个随机试验所有可能的 结果的集合 事件 A 是Ω的子集 概率函数 (或者概率分布)
M1 较M2 更优
2020/6/21
32
信息论概述
信息论由香农与20世纪40年代提出 X: 是一个离散型随机变量, p(X) 熵的定义
H(X) p(x)log2p(x) xX
熵是信息量的量度(不确定性的程度,复杂 程度)
2020/6/21
33
熵(entropy)
H(X) p(x)log2p(x) xX
P(A | B)
2020/6/21
6
联合概率
A与B的联合概率
P( A, B) P( A | B)P(B) P(B | A)P( A)
argmax[B]P(A|B)P(B)/P(A)=argmax[B]P(A|B) P(B)
2020/6/21
7
链规则
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P : Ω 0,1
2020/6/21
4
先验概率与后验概率
先验概率(prior probability):在没有任何附 加条件下的概率值
P( A)
后验概率(posterior probability):在某种先 决条件下的概率值
P(A|B)
2020/6/21
5
条件概率
我们对于随机试验的结果有部分知识(或 者约束条件) 条件概率 (或者后验概率) 假设我们已知B为真 那么在我们已知B为真的条件下A 为真的 概率可以表示为:
P(M | S) P(S | M )P(M ) P(S)
0.51/ 50,000 0.0002 1/ 20
2020/6/21
11
随机变量
对于不同的问题,样本空间的内容各不 相同 随机变量(Random variables) (RV)是 我们能够讨论与样本空间相关的数值的 概率值
离散型随机变量 连续型随机变量
无参数的方法
贝叶斯统计
2020/6/21
26
贝叶斯统计
贝叶斯统计的实质是可信度数量化 可信度是这样计算出来的:
有先验的知识 根据数据应用贝叶斯定理更新知识
2020/6/21
27
贝叶斯统计
*
M argmaxP(M|D)
M
argmax P(D|M)P(M)
M
P(D)
argmaxP(D|M)P(M)
Var( X ) E((X E( X ))2 )
E(X 2) E2(X ) 2 σ 是标准差(standard deviation),简 称SD
2020/6/21
14
语言模型
对于语言这一事件来说P未知 我们需要估算P, (换句话说,构造语言的 概率模型 M ) 为估算P,我们必须看看在大规模真实文 本中词的分布状况
θ
2020/6/21
24
基于频度的统计
*
通过比较最大相关度来选择模型 M
*
M
argmax
PD | M,
*
θ(M)
M
*
θ argmaxP(D|M, θ)
θ
2020/6/21
25
小结
基于频度的统计
有参数的方法
几种常用的分布: 二元分布 (离散) 泊松分布(离散) 正态分布(高斯分布)(连续)
2020/6/21
15
对P的估算
基于频度的统计 贝叶斯统计
2020/6/21
16
基于频度的方法
相关频度(频率):事件 u 发生的次数与所 有事件总次数的比率
fu
C(u) N
C(u) 在N次实验中u 发生的次数
当 N 相关频度逐渐稳定在某一个值 上:即该事件的概率估计
2020/6/21
17
基于频度的方法
2020/6/21
35
条件熵
给定另一个随机变量X,随机变量Y的条件熵描 述了
H(Y| X) p(x)H(Y| X x) xX
p(x) p(y | x)logp(y | x)
xX
yY
p(x, y)logp(y | x) Elogp(Y| X) xX yY
2020/6/21
36
Chain Rule
连续型
两个参数: 均值 μ 与标准差 σ
n(x; , )
1
(x)2
e 2 2
2
汉字的笔画数与该笔画对应的汉字的个 数符合正态分布
2020/6/21
23
基于频度的统计
D: 数据
M: 模型 (distribution P)
Θ: 参数 (如 μ, σ)
最大可能性估计:
选择
*
θ
使得
*
θ argmaxP(D|M, θ)
H(X, Y) H(X) H(Y | X)
H(X1,..., Xn) H(X1) H(X2 |X1) .... H(Xn |X1,...Xn1)
2020/6/21
37
Mutual Information
H(X,Y) H(X)H(Y|X) H(Y)H(X|Y) H(X)-H(X|Y) H(Y)- H(Y|X) I(X,Y)
2020/6/21
42
噪声信道模型
2020/6/21
43
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
2020/6/21
8
(条件)独立
两个事件 A 与 B 相互独立如果 P(A) = P(A|B)P(A,B)=P(A)*P(B) 两个事件 A 与 B 是在条件C下相互条件 独立如果: P(A|C) = P(A|B,C)
两种不同的方法
有参数的方法(Parametric) 无参数的方法(Non-parametric) (与分布
无关)
2020/6/21
18
有参数的方法
假设某种语言现象服从我们业已熟知的 某种分布,如二元分布,正态分布,泊 松分布等等 我们已有明确的概率模型,现在需要确 定该概率分布的一些参数。
2020/6/21
2020/6/21
12
数学期望(Expectation)
p(x) p(X x) p(Ax )