当前位置:文档之家› 自然语言理解-词法分析

自然语言理解-词法分析

杭州大学改进的 MM分词系统 , 其实质为 MM+ 规 则。 微软研究院多国语言处理平台NLPWin中的中文 词语分析词系统,采用了切词-句法分析一体化的 方法,使用语法规则并以概率模型作导向来进行 排歧。 北京大学计算语言学研究所的汉语切分与标注 系统,把分词和词类标注结合起来,采用基于规 则的标注排歧与基于语料库统计模型的排歧相结 合的处理方法。
分词词表
《信息处理用现代汉语分词规范》 迄今也没有一个公认的、具有权威 性的词表,这是分词问题所面临的第 一个困难
汉语双字形容词的重叠形式
汉语单字形容词的重叠形式
汉语双字动词的重叠形式
汉语单字动词的重叠形式
汉语其他词类的重叠形式

名词

哥哥,人人 山山水水,是是非非,方方面面,头头脑脑 一一做了回答,两两结伴而来 个个都是好样的,回回考满分 常常,仅仅,的的确确
歧义切分字段
分词模型
待切分 生成解空间 在解空间中求解
句子
侯选切分集
切分歧义之解决
阶段一
阶段二
切分
结果
分词模型
阶段一——生成解空间
根据分词词表及其某种切分原则, 找出输入句子的侯选切分集合,以供 下一阶段处理
最大匹配法是极端之一,给出唯一侯选 (侯选即解)
分词模型
全切分法是另一个极端,给出输入句子的 所有可能切分形式,可实现无盲点分析,代价 是解空间膨胀太大,又会造成许多不必要的干 扰
印欧语系多有形态变化,而汉语缺 少形态变化
例如:复数、单数,过去、现在,阴性、阳性等等
汉语词法分析所面临的问题

分词词表 重叠词、词缀 分词和理解,孰先孰后? 歧义切分字段 专有名词的识别
分词词表
汉语词的抽象定义(既“词是什么”) 与具体判定(既“什么是词”)问题, 语言学界并未完全解决 词表对自动分词而言,是最基础的 “构件”
例如:
马上————马/上(切分1)
马上————马上 (切分2)
歧义切分字段

混合型歧义:由交集型歧义和组合型歧 义自身嵌套或两者交叉组合而产生的歧 义


人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。
真歧义和伪歧义

真歧义

确实能在真实语料中发现多种切分形式 比如“应用于”、“地面积” 虽然有多种切分可能性,但在真实语料中往 往取其中一种切分形式 比如“挨批评”、“市政府”

单字词与语素之间的划界 词与短语之间的划界 把没有明显分界标志的字串自动切分为词串

汉语自动分词


汉语的特点: 汉语是大字符集的语言

英语有26个字母,而常用的汉字就有六七千个,总数超 过五万
书面汉语的词与词之间没有明确的分 隔标记

汉语中兼类现象严重

例如:“和”根据《现代汉语词典》可以有五种读 音,六种词性,以及十六种不同的词义
模型的求解仍可归结为有向图两点 最优路径问题
基于隐Markov模型
关键:以隐Markov模型为主要手段 解决切分歧义,是一种最有希望的方 案,但“单打一”恐怕不能完全奏效, 必须集成多种手段(方法)。
专有名词的识别
许多分词算法都是在完备词表的假 设下设计的,这一假设并不成立。 新词不断涌现,而且专有名词虽然 不新,但不可能尽收。

材料一:孙茂松等1999

一个1亿字真实汉语语料库中抽取出的前4,619个高 频交集型歧义切分覆盖了该语料库中全部交集型歧 义切分的59.20%,其中4279个属伪歧义(占92.63%, 如“和软件”、“充分发挥”、“情不自禁地”), 覆盖率高达53.35%。

材料二:刘开瑛2000,第4章

78248个交集型歧义字段中,
词法分析
语言根据词的形态结构分类

分析型语言

没有专门表示语法意义的附加成分 汉语,藏语 词内有专门表示语法意义的附加成分 芬兰语,日语 用词的形态变化表示语法关系 英语,德语,法语

黏着型语言


曲折性语言

什么是词?


词是语言中最小的能独立运用的单位, 是信息处理的基本单位。 界定词的困难所在

后缀

分词和理解,孰先孰后?
计算机分词仍然面临知识短缺的大问 题 计算机大概永远做不到像人那样先理 解后分词
不可企求百分之百的正确切分,这是 自动分词所面临的第二个困难
汉语切分歧义

例子

公路局处理解放大道路面积水问题。 南京市长江大桥说:……
歧义切分字段

数词


量词


副词

汉语重叠词的特点

汉语词能否重叠具有很强的个性特点
பைடு நூலகம்
研究研究√ 工作工作× 形容词重叠后一般成为状态词 个别量词重叠后可以成为其他词性


有些词重叠后词性发生了变化

回回:副词 个个:名词
汉语词缀

前缀

老鹰、老虎、老三、老王 超豪华、超标准、超高速 非党员 骨头、砖头、甜头、苦头、盼头、想头 桌子、椅子、孩子、票子、房子 文学家、指挥家、艺术家 科学性、可能性、学术性 碗儿、花儿、玩儿、份儿、片儿
研究进展
山西大学的 ABWS 分词系统 , 使用“两次扫描 联想回溯”法,利用联想 - 回溯来有效地解决 歧义组合结构的切分,同时兼有自动检错和纠 错的功能。其分词子系统较好地利用了语言学 中的词法知识、句法知识,并具有调用分词规 则切分歧义字段和回收生词等功能。 北师大的自动分词专家系统,首次将专家系 统方法引入到分词系统中。
定义1.1 交集型歧义:字串ABC,其中 汉字字串A、B、C的长度均大于零,该 字串可以切分为AB/C或A/BC,则称该字 串为交集型歧义字串。
例如: 出现在————出现/ 在(切分1) 出现在————出 /现在(切分2)
歧义切分字段
定义1.2 组合型歧义:字串 AB ,其中 汉字字串 A 、 B 的长度均大于零,该字 串可以切分成 AB 或 A/B ,则称该字串为 组合型歧义字串。
研究进展
中科院计算所的词语分析系统 ICTCLAS ,采 用 N- 最短路径方法进行词语粗分(概率统计), 然后用HMM的方法进行分词和标注的一体化处理。 国家语委文字所应用句法分析技术的汉语自 动分词,此分词模型考虑了句法分析在自动分 词系统中的作用,以更好地解决切分歧义。切 词过程考虑到了所有的切分可能,并运用汉语 句法等信息从各种切分可能中选择出合理的切 分结果。
专有名词的识别
一般说来,专有名词包括:
中国人名 中国地名 译名 组织机构名 事件名 时间数量名 商标名
专有名词的识别
陈/nhf 平/nhs 为/vl 北京大学/ni 中国经济研究 中心/ni 经济学/n 教授/n ,/w 中心/n 副/f 主任 /n (/w 主管/v 科研/j )/w 。/w 1968/m 年/nt 获/v 中国科技大学/ni 物理系/n 学士/n 学位/n , /w 1987/m 年/nt 获/v 美国/ns 德克萨斯大学/ni 物理学/n 博士/n 学位/n 。/w “陈平” 人名 “美国” 地名 “北京大学”、“中国科技大学” 、“中 国经济研究中心” 及 “德克萨斯大学” 属于组织机构名
研究进展
清华大学 SEG分词系统,此系统提供了带回溯的
正向、反向、双向最大匹配法和全切分-评价切分算 法,由用户来选择合适的切分算法。其特点则是带 修剪的全切分-评价算法。 清华大学SEGTAG系统,该系统对词典中的每一个 重要的词都加上了切分标志,即标志“ck”或“qk” 。 通过这两种标志并使用几条规则来实现有限的全切 分。为了获得切分结果,系统采用在有向图DAG上搜 索最佳路径的方法,所运用的搜索算法有两种,即 “动态规划”和“全切分搜索+叶子评价”,使用了 词频、词类频度、词类共现频度等统计信息。
专有名词的识别
不同的语料,专名所占的比例也不同。
对455万字的人民日报语料统计的结果显示: 专名占5.74%,其中,中国人名占2.55%,地名占 2.55%,外国译名占0.73%,如果不予处理,会对切 分精确率造成比歧义字段更大的影响。
研究进展
中文词语的分析过程:
预处理过程的词语粗切分
研究进展
北大计算语言汉语文本分析系统,该系统中采 用了一种综合性歧义切分处理方法,其要点有: 把汉语基本词典中所有的歧义词标记出来; 把所有的歧义字段分为两类:简单歧义字段 和复杂歧义字段; 在切分时,如果匹配出来的词不是歧义词, 则可以安全地切分出来;
研究进展
当匹配出歧义词时,根据词条的歧义信息(歧 义偏移值)判断当前歧义字段的类别:如果是简单 歧义,则使用一条非常简单的规则即可全部得解, 即优先切出非歧义词; 如果是复杂歧义字段,则调用一个“侦歧”过 程,进一步判断歧义字段的类型是“歧义词+歧义词” 还是“连续型歧义字段”;考察词条的“歧义触发 信息”和“歧义消隐信息”,即可解决所有局部 (直接上下文)的歧义; 通过浅层句法分析及其同步的语义检查(义类 代码及配价项的检查),消解句子级歧义。

伪歧义:94% 真歧义:6%
汉语真实文本中的分词歧义情况 (续)

分词歧义的四个层级(何克抗等1991, 50883字语料)


词法歧义:84.1% (“用方块图形式加以描 述”) 句法歧义:10.8% (“他一阵风似的跑了”) 语义歧义:3.4% (“学生会写文章”) 语用歧义:1.7% (“美国会采取措施制裁 伊拉克”)
相关主题