当前位置:
文档之家› 中文文本自动分词与标注汉语词义自动标注技术
中文文本自动分词与标注汉语词义自动标注技术
– 大量同音字、同音詞語,化成書面多可消除 歧義。
– 單字多義項者占53.6%(如「打」字之義項數
為26) ;詞組/合成詞多義項者僅占0.46%。
2020/5/30
6
漢字字義組合結構
• 向心性字組 Vs. 離心性字組
– 冰山,青山,火山,高山(核心字在後) Vs. 山峰,山城,山溝, 山村(核心字在前)
多義詞 義項號 搭配類別(L/R)
頻次
註:頻次表示在本次標注語料中該搭配出現的次數
– 根據統計數據自動調整學習進度,逐漸增加上下窗口 長度來學到儘可能多的搭配。
– 打-B01:毆打,攻打→打倒∣打擊∣打架∣… ∣打手 – 打-B02:用手或器具撞擊物體→打鼓∣打火∣… ∣敲
鑼打鼓 –鼓-A01:打擊樂器→鼓板∣鼓槌∣打鼓∣…∣重振旗鼓 –鼓-A02:發動,激起→鼓動∣鼓舞∣… ∣鼓足幹勁
2020/5/30
11
自組織的漢語詞義排歧方法-步驟1
• 以<現代漢語辭海>提供的搭配實例作為多義詞的 初始搭配知識庫,無需人工標注初始語料,用適當 的統計和自組織方法做訓練並自動擴大搭配集。
• 建立基於語義類的語言模型,為語音識別、手寫體 識別和音字轉換提供幫助。
2020/5/30
3
詞義自動標注 ( Word Sense Tagging )
• 也稱為詞義自動排歧 ( Word Sense Disambiguation )
– 計算機運用邏輯運算與推理機制,對出現在一定上下 文中詞語的語義進行正確的判斷,自動確定其正確的 義項並加以標注的過程。
– 語義編碼:是用符號代表語義,關注的是語言 所能表達的意義,每種語言都有自己的語義系 統。漢語和英語屬於不同的語系,前者屬於漢藏語系,
後者屬於印歐語系。
2020/5/30
5
語言的編碼
• 漢語語義編碼的基本符號是“字”
– 漢語的語義主要附著在“字”上。字義排歧 是詞義標注之突破點。
– 濃縮形音義,多為形聲字,表音亦表意,望 文生義,如:吠。
– 在初始搭配知識庫中,每個條目的包含訊息可描述為
多義詞 義項號 搭配類別(L/R) 搭配示例
2020/5/30
12
自組織的漢語詞義排歧方法-步驟2
• 在學習過程中逐漸增大上下文窗口長度來保證高 可靠性。
– 選擇上下文的訊息時應儘量選取與當前詞存在語法有 關係的那些詞,濾掉上下文中多數與其不存在語法關 係的詞。
• 詞典釋義文本中的某個「義項號」
• 義類詞典中相映的「義類編碼」
2020/5/30
2
詞義排歧
• 處理一詞多義現象
– 例:大學是教育機構是一本古書,博士既是官名,又是 博學多才的人,又是師傅,還是一種學位的名稱。
• 使用詞義標注文本可提高檢索時的查全率和查準率。
• 有利於選擇可以恰當表達語句中詞的目標詞,以提 高翻譯的準確性。
– 在給定的多義詞上下文內,尋找與初始搭配庫匹配的 搭配實例,若匹配成功則標上對應的義項標記。
– 初始標注時限定上下文窗口長度為2,表選擇該詞的
前後兩個詞。
2020/5/30
13
自組織的漢語詞義排歧方法-步驟3
• 透過建立搭配統計表來實現多元詞義歧義的排歧
– 按一定原則從與料庫中取得排歧過程中需要的各種可 能搭配和統計數據。每個條目包含的訊息可描述為:
– 各語義場間互相有著同義(好看Vs.華麗) 、反義(善良 Vs.凶惡) 、類義(大雨Vs.暴雨) 、聯義(同情Vs.同情心; 哭Vs.淚人兒)等語義關係。
– 同一個語義場包含”1.同義;2.反義;3.類義” 三種 語義關係
– 跨語義場就是聯義
2020/5/30
10
基於字義排歧的模型-MTD說明
• MTD由MDR-1透過機器自動生成詞組之義項代 碼,如”打-B02 鼓-A01”
• 並列字組 Vs. 主從字組
– 關閉,左右,上下,陰陽(二字相同相近相反) Vs. 火車,汽車, 黑板,白版(前字從,後字主)
• 合義(國+務→國務)33%、加義(景+物→可供觀賞的景 緻和事務)56.7%、同義(聲+音→聲;音)、偏義(厚+度 →厚≠度;容+易→易≠容)、轉義(目+光 = 眼睛+光線 →
• 多義詞排歧
– 主要依據該多義詞出現的上下文,排歧的過程就是建 立他們之間的聯繫過程,這種聯繫則是詞語間的語義 聯繫。
• 常見方法
– 人工智能法、基於詞典的方法、基於語料庫的方法
2020/5/30
4Leabharlann 語言的編碼• 分為語音編碼和語義編碼兩大類 – 語音編碼:用符號代表語音,一種語言區別於 其他語言的根本區別就是其不同的語音音素編 碼。就英語而言有英音,美音,澳音,新西蘭音等。
2020/5/30
8
基於字義排歧的模型-MRD1說明
• MRD-1讀入<現代漢語通用辭典>,用來作為 標注每個漢字的義項號。
– “打(da3)”在MRD-1中有25個義項,分別為
– 打-B01:毆打,攻打;打-B02:用手或器具撞 擊物體;打-B03:做,從事;打-B04:表示身 體上的某些動作;……打-B25:器皿,蛋類因撞 擊而破碎。
綱要
• 詞義標注
• 詞義排歧
• 詞義自動標注 與 詞義自動排歧
• 語言的編碼
• 漢字字義組合結構
• 基於字義排歧的模型
• 自組織的漢語詞義排歧方法
• 結語
2020/5/30
1
詞義標注
• 對文本中的每個詞根據其所屬之上下文給出它 的語義編碼
– 指用非文字的東西來表示文字消息的內容,用圖畫、 樂譜等都可以進行語義編碼。
– “打(da2)”在MRD-1中記為
– 打-A01:量詞,12個叫一打。
2020/5/30
9
基於字義排歧的模型-MRD2說明
• MRD-2讀入<同義詞詞林>,編排方式以詞義為 主兼顧詞類詞,多義詞則分別收入不同詞群
– 以12個語義場(人,物,時間,空間,抽象事物,性質,動作,心理,活動 狀態,關聯,助詞)之不同層次與大小來分類。
見識)
少量字義推大量詞義成為可能!
2020/5/30
7
基於字義排歧的模型
• 資源:三台機器 + 兩部詞典
– MRD-1讀入<現代漢語通用字典> – MRD-2讀入<同義詞詞林> – MTD由MDR-1透過機器自動生成
• 以字義定詞義的語義標注方式準確率在80%以上 • 遭遇困難處
– 二字詞之多義詞排歧 – 單字本身意義抽象、廣泛、模糊,成詞時描述也困難 – 如何將詞義間之關係建構成完整的意念表達仍須努力