计算语言学概论
詞義的排歧
詞法分析研究的意義與目的
機器翻譯︰簡繁轉換
后面 後面 , 皇后 皇後 松绑 鬆綁 , 松树 鬆樹 開發 土地開發 (開發票) 便衣 便衣警察 (簡便衣物)
訊息檢索︰搜尋引擎
文本處理︰拼寫校對
繁體子 繁體字 于涉 干涉 倒垃圾跌倒
兼類現象
Time flies like an arrow.
n-v v-n q p-v det n
把
這 篇 報導 編輯 一
v-n v-n
下
q-p-v-n r
m-c f-q-v
詞性的標注 – 兼類現象
兼類數量 5 4 3 3 20 126 詞數 百分比 0.01% 0.04% 0.23% 例子 和 c-n-p-q-v 光 a-d-n-v 畫 n-q-v
語音處理︰電腦發音、重音復原
詞法分析研究的意義與目的
詞法分析的過程
1.分詞 : 將句子中的單詞切割出來 2.詞性標注 : 決定每個詞的詞性 3.詞義排岐 : 決定每個詞的意義
文章
句子
分詞
詞串
詞性標注
詞串
詞義排歧
資料庫
漢語的分詞方式
從句子轉換到詞串,會因為切割方式的不同,而有不同的意義
學生會長是誰
學生會 / 長 / 是 / 誰 學生 / 會長 / 是 / 誰 學生 / 會 / 長 / 是 / 誰分詞的基本方法
最大匹配法(Maximum Match based approach) 機率分詞法(Probability approach to Word Segmentation)
計算語言學概論
詞法分析
R94922056 吳憲國 2007/06/21
Introduction
詞法分析簡介 分詞方式
最大匹配法 最大概率法 HMM (Hidden Markov Model)演算法 Viterbi演算法 Bayesian Discrimination
詞性的標注
n-q a-d
合計
64 30
1101
4% 2%
75%
筆,刀,口 大,老,真
兼兩類詞數 1475
詞性的標注 – 兼類現象
词 把 被 並 次 词性1: 機率 p: 0.96 p: 1.00 c: 0.86 q: 1.00 词性2: 概率 q:0.03 Ng: 0.00 d: 0.14 Bg: 0.00 词性3: 概率 v: 0.01 词性4: 概率 m: 0.00
p n q n m v
r
n v
q
v v c
q
f
把
這
篇
報導
編輯
一
下
Hidden Markov Model
路徑集合T = (t1,t2,t3,………,t96) 每一步的轉移機率 = 詞性轉移機率 * 單詞出現機率
q n $
起始狀態
n
m
f q
p r q v
這 篇 報導
n
n
把
v
編輯
c
一
v
下
P(t1|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(f|m) P(下|f) P(t2|W) = P(q|$) P(把|q) x P(r|q) P(这|r) x …… x P(q|m) P(下|q) …… P(t96|W) = P(n|$) P(把|n) x P(r|q) P(这|r) x …… x P(v|c) P(下|v)
由
在
p: 1.00
p: 0.95
v: 0.00
d: 0.02
詞性的標注 – 尋找最佳路徑
把
| 這 | 篇 | 報導 | 編輯 | 一 | 下
| q | v-n | v-n | m-c | f-q-v
q-p-v-n | r
4 X 1 X 1 X 2 X 2 X 2 X 3 = 96 種可能詞性的組合
Y
W是否在詞典中
正向與反向的分詞差異
N
去掉W最右邊一個字
句子“有意見分歧” 正向匹配有意 / 見 / 分歧 反向匹配有 / 意見 / 分歧
Y
W是否長度為1
N
機率分詞法
基本概念
一個待切割的字串可能包含多種分詞結果 求得其中機率最大的切割方式作為該字串的分詞結果
路徑A: 0 – 1 – 3 – 5 路徑B: 0 – 2 – 3 – 5
計算出最大機率路徑
HMM複雜度
假定有N個詞性標記,給定的詞串中有M個單詞,考慮最壞的情 況下,每個詞都有N個可能的詞性出現,則可能的路徑有NM條, 隨著M的增加,需要計算的可能路徑數目以指數模式增長,即 演算法時間複雜性成指數成長。
P(W1) = P(有)*P(意見)*P(分歧)
單詞 有 有意 意見
出現機率 1.80% 0.05% 0.10%
詞串W2 = 有意 / 見 / 分歧
P(W2) = P(有意)*P(見)*P(分歧)
見
0.02% 0.01%
P(W1) > P(W2)
有意見分歧 有 / 意見 / 分歧
分歧
詞性的標注
2
合計
1475
1264
2.67%
2.94%
鎖 n-v
總詞數 55191
北大計算語言所《現代漢語語法訊息詞典》1997年版
詞性的標注 – 兼類現象
兼類 n-v a-n a-v b-d 詞數 613 74 217 103 百分比 42% 5% 15% 7% 例子 愛好,把握,報導 本分,標準,典禮 安慰,保守,抽象 長期,成批,初步
哪條路徑的機率較高
機率分詞法
字串S =“有意見分歧“
詞串W1 =有 / 意見 / 分歧 詞串W2 =有意 / 見 / 分歧
Max( P(W1|S), P(W2|S) ) ?
(independent) wi在語料庫中出現的次數 語料庫中總詞數
機率分詞法
詞串W1 = 有 / 意見 / 分歧
從
大 到 得 等 地 對 就 以
p: 1.00
a: 0.92 v: 0.80 u: 0.76 u: 0.98 u: 0.89 p: 0.98 d: 0.87 p: 0.84
Vg: 0.00
d: 0.08 p: 0.20 v: 0.24 v: 0.02 n: 0.11 v: 0.01 p: 0.13 c: 0.11 q: 0.01 c: 0.00 j: 0.05 v: 0.02 a: 0.00 e: 0.00 q: 0.00
最大匹配法
待分割句子S1 輸出詞串S2=“” 最大詞長 MaxLen
詞典中較長的詞,會被優先取出 缺點
S1是否為空
Y
輸出S2
N
從S1左邊取出候選 字串W,長度不超 過Maxlen
最大詞長設定 MaxLen
太小無法切割出長詞 太長效率太差
S1=S1 - W S2=S2 + W + ” /”