当前位置：文档之家› 自然语言理解-词法分析

自然语言理解-词法分析

杭州大学改进的 MM分词系统，其实质为 MM+ 规则。微软研究院多国语言处理平台NLPWin中的中文词语分析词系统，采用了切词-句法分析一体化的方法，使用语法规则并以概率模型作导向来进行排歧。北京大学计算语言学研究所的汉语切分与标注系统，把分词和词类标注结合起来，采用基于规则的标注排歧与基于语料库统计模型的排歧相结合的处理方法。
分词词表
《信息处理用现代汉语分词规范》迄今也没有一个公认的、具有权威性的词表，这是分词问题所面临的第一个困难
汉语双字形容词的重叠形式
汉语单字形容词的重叠形式
汉语双字动词的重叠形式
汉语单字动词的重叠形式
汉语其他词类的重叠形式

名词

哥哥，人人山山水水，是是非非，方方面面，头头脑脑一一做了回答，两两结伴而来个个都是好样的，回回考满分常常，仅仅，的的确确
歧义切分字段
分词模型
待切分生成解空间在解空间中求解
句子
侯选切分集
切分歧义之解决
阶段一
阶段二
切分
结果
分词模型
阶段一——生成解空间
根据分词词表及其某种切分原则，找出输入句子的侯选切分集合，以供下一阶段处理
最大匹配法是极端之一，给出唯一侯选（侯选即解）
分词模型
全切分法是另一个极端，给出输入句子的所有可能切分形式，可实现无盲点分析，代价是解空间膨胀太大，又会造成许多不必要的干扰
印欧语系多有形态变化，而汉语缺少形态变化
例如：复数、单数，过去、现在，阴性、阳性等等
汉语词法分析所面临的问题

分词词表重叠词、词缀分词和理解，孰先孰后？歧义切分字段专有名词的识别
分词词表
汉语词的抽象定义（既“词是什么”）与具体判定（既“什么是词”）问题，语言学界并未完全解决词表对自动分词而言，是最基础的 “构件”
例如：
马上————马/上（切分1）
马上————马上（切分2）
歧义切分字段

混合型歧义：由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义

人才能：这样的人才能经受住考验。人才能：这样的人才能经受住考验。人才能：这样的人才能经受住考验。
真歧义和伪歧义

真歧义

确实能在真实语料中发现多种切分形式比如“应用于”、“地面积” 虽然有多种切分可能性，但在真实语料中往往取其中一种切分形式比如“挨批评”、“市政府”

单字词与语素之间的划界词与短语之间的划界把没有明显分界标志的字串自动切分为词串

汉语自动分词

背
汉语的特点：汉语是大字符集的语言
景
英语有26个字母，而常用的汉字就有六七千个，总数超过五万
书面汉语的词与词之间没有明确的分隔标记
背
汉语中兼类现象严重
景
例如：“和”根据《现代汉语词典》可以有五种读音，六种词性，以及十六种不同的词义
模型的求解仍可归结为有向图两点最优路径问题
基于隐Markov模型
关键：以隐Markov模型为主要手段解决切分歧义，是一种最有希望的方案，但“单打一”恐怕不能完全奏效，必须集成多种手段（方法）。
专有名词的识别
许多分词算法都是在完备词表的假设下设计的，这一假设并不成立。新词不断涌现，而且专有名词虽然不新，但不可能尽收。

材料一：孙茂松等1999

一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%，其中4279个属伪歧义（占92.63%，如“和软件”、“充分发挥”、“情不自禁地”），覆盖率高达53.35%。

材料二：刘开瑛2000，第4章

78248个交集型歧义字段中，
词法分析
语言根据词的形态结构分类

分析型语言

没有专门表示语法意义的附加成分汉语，藏语词内有专门表示语法意义的附加成分芬兰语，日语用词的形态变化表示语法关系英语，德语，法语

黏着型语言

曲折性语言

什么是词？

词是语言中最小的能独立运用的单位，是信息处理的基本单位。界定词的困难所在

后缀

分词和理解，孰先孰后？
计算机分词仍然面临知识短缺的大问题计算机大概永远做不到像人那样先理解后分词
不可企求百分之百的正确切分，这是自动分词所面临的第二个困难
汉语切分歧义

例子

公路局处理解放大道路面积水问题。南京市长江大桥说：……
歧义切分字段

数词

量词

副词

汉语重叠词的特点

汉语词能否重叠具有很强的个性特点
பைடு நூலகம்
研究研究√ 工作工作× 形容词重叠后一般成为状态词个别量词重叠后可以成为其他词性

有些词重叠后词性发生了变化

回回：副词个个：名词
汉语词缀

前缀

老鹰、老虎、老三、老王超豪华、超标准、超高速非党员骨头、砖头、甜头、苦头、盼头、想头桌子、椅子、孩子、票子、房子文学家、指挥家、艺术家科学性、可能性、学术性碗儿、花儿、玩儿、份儿、片儿
研究进展
山西大学的 ABWS 分词系统 , 使用“两次扫描联想回溯”法，利用联想 - 回溯来有效地解决歧义组合结构的切分，同时兼有自动检错和纠错的功能。其分词子系统较好地利用了语言学中的词法知识、句法知识，并具有调用分词规则切分歧义字段和回收生词等功能。北师大的自动分词专家系统，首次将专家系统方法引入到分词系统中。
定义1.1 交集型歧义：字串ABC，其中汉字字串A、B、C的长度均大于零，该字串可以切分为AB/C或A/BC，则称该字串为交集型歧义字串。
例如：出现在————出现/ 在（切分1）出现在————出 /现在（切分2）
歧义切分字段
定义1.2 组合型歧义：字串 AB ，其中汉字字串 A 、 B 的长度均大于零，该字串可以切分成 AB 或 A/B ，则称该字串为组合型歧义字串。
研究进展
中科院计算所的词语分析系统 ICTCLAS ，采用 N- 最短路径方法进行词语粗分（概率统计），然后用HMM的方法进行分词和标注的一体化处理。国家语委文字所应用句法分析技术的汉语自动分词，此分词模型考虑了句法分析在自动分词系统中的作用，以更好地解决切分歧义。切词过程考虑到了所有的切分可能，并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。
专有名词的识别
一般说来，专有名词包括：
中国人名中国地名译名组织机构名事件名时间数量名商标名
专有名词的识别
陈/nhf 平/nhs 为/vl 北京大学/ni 中国经济研究中心/ni 经济学/n 教授/n ，/w 中心/n 副/f 主任 /n （/w 主管/v 科研/j ）/w 。/w 1968/m 年/nt 获/v 中国科技大学/ni 物理系/n 学士/n 学位/n ， /w 1987/m 年/nt 获/v 美国/ns 德克萨斯大学/ni 物理学/n 博士/n 学位/n 。/w “陈平” 人名 “美国” 地名 “北京大学”、“中国科技大学” 、“中国经济研究中心” 及 “德克萨斯大学” 属于组织机构名
研究进展
清华大学 SEG分词系统，此系统提供了带回溯的
正向、反向、双向最大匹配法和全切分-评价切分算法，由用户来选择合适的切分算法。其特点则是带修剪的全切分-评价算法。清华大学SEGTAG系统，该系统对词典中的每一个重要的词都加上了切分标志，即标志“ck”或“qk” 。通过这两种标志并使用几条规则来实现有限的全切分。为了获得切分结果，系统采用在有向图DAG上搜索最佳路径的方法，所运用的搜索算法有两种，即 “动态规划”和“全切分搜索+叶子评价”，使用了词频、词类频度、词类共现频度等统计信息。
专有名词的识别
不同的语料，专名所占的比例也不同。
对455万字的人民日报语料统计的结果显示：专名占5.74%，其中，中国人名占2.55%，地名占 2.55%,外国译名占0.73%，如果不予处理，会对切分精确率造成比歧义字段更大的影响。
研究进展
中文词语的分析过程：
预处理过程的词语粗切分
研究进展
北大计算语言汉语文本分析系统，该系统中采用了一种综合性歧义切分处理方法，其要点有：把汉语基本词典中所有的歧义词标记出来；把所有的歧义字段分为两类：简单歧义字段和复杂歧义字段；在切分时，如果匹配出来的词不是歧义词，则可以安全地切分出来；
研究进展
当匹配出歧义词时，根据词条的歧义信息（歧义偏移值）判断当前歧义字段的类别：如果是简单歧义，则使用一条非常简单的规则即可全部得解，即优先切出非歧义词；如果是复杂歧义字段，则调用一个“侦歧”过程，进一步判断歧义字段的类型是“歧义词+歧义词” 还是“连续型歧义字段”；考察词条的“歧义触发信息”和“歧义消隐信息”，即可解决所有局部（直接上下文）的歧义；通过浅层句法分析及其同步的语义检查（义类代码及配价项的检查），消解句子级歧义。

伪歧义：94% 真歧义：6%
汉语真实文本中的分词歧义情况（续）

分词歧义的四个层级（何克抗等1991, 50883字语料）

词法歧义：84.1% （“用方块图形式加以描述”）句法歧义：10.8% （“他一阵风似的跑了”）语义歧义：3.4% （“学生会写文章”）语用歧义：1.7% （“美国会采取措施制裁伊拉克”）

e商务文档

自然语言理解-词法分析

相关文档推荐：