汉语计算语言学与语义分析研究
编码——解码
表达——理解
自然语言生成——自然语言处理
只有真正熟悉了汉语的语素,词,词义以及相互之间的
关系,才能正确的理解出语义,并制定相关的语义解析
规则
一绪论
1、语义识别背景
语义识别是在语音识别(或其它模式识别)的基础上,对获取的客观字符文本数据,做进一步的分析挖掘,提取其中所包含
的用户主观意图
语义识别技术,目的是让计算机能够理解人类的语言。
通俗的定义:即通过用户无规则的说话就能知道用户想做什么
语义识别技术涉及:海量数据处理、分词、语素、义素、语义特征建模、规则库等主要技术
音节和音节相连时,有的音节的调值会发生有规律的变化
有些音节的读音在一定条件下失去了原有声调的调值
句子不同的连停方式,也会对语义的理解产生影响语音中的重音强调不同,所含的语义也不同
语音影响语义
有些音节的读音在一定条件下失去了原有声调的调值
2、语音对语义识别的影响
汉字的读音影响机器语音识别,进而影响到语义识别
•2、语义识别的关键技术难点•(1)提供高准确率的语音识别系统•(2)系统分词算法的精确度•(3)计算机如何尽可能的消除歧义•(4)语义分析的特征建模
•(5)服务于建模的规则库的建立
语法基本单位
语素最小的语法单位,是语言中最小的音
义结合体,既有声音,又有意义
“妹妹不吃白菜”就包
含
“妹”“妹”“不”“
吃”“白”“菜”这六
个语素
词有意义的能独立运用的最小的语言语
法单位,词都是由语素构成的
妹—妹妹、白—菜—白
菜、不—吃—不吃
词组词和词按一定句法规则组合成的比词
大的语法单位
句子“长虹生产电视”
是由“长虹”和词组
“生产电视”组成的,
而“生产电视”又是由
词组“生产”和“电视”
组成的
句子语言中最大的语法单位,通常是由一
个词或者词组加上一个句调形成的
(1)你喜欢看电视吗?
(2)能看高清电视了!
语法单位间的范围关系
语素词词组句子
词由语素构成,特殊情况下一些语素可以独立成词,词和词构成词组,词组或者加上一定语调构成句子
理解语素,对于语义分析建模时设计分词规则具有十分重要的作用是一切词句的基石
在计算机语言分析中,可以建立词素库,规定构词规则,组词规则,成句规则,以便正确的进行分词,得到精确的匹配
二语素
1、特点:
(1)最小、不能再分割了(2)一定是有意义
2、语素实例
(1)总是附在别的语素上:丽、孑、韭、懑、迩
(2)总是自由独立地使用在语句中:
踌躇、蒺藜、珊瑚、锉、炒、刚(副词)、都(副词)迪斯科、巧克力、奥林匹克、布尔什维克
(3)既可靠附在别的语素上,又可自由运用在语句中雷:地雷雷池雷厉风行把大树劈断的是雷呢。
葡萄:葡萄糖葡萄干新疆的葡萄最好吃
3、语素的分类
语素
不定位语素
定位语素
按位置是否固定多音节语素
按音节多少
双音节语素单音节语素不成词语素
成词语素
按是否成词虚语素
实语素按是否有词汇意
三、词和固定语(词汇系统)(一)词:
最小的能够自由运用的语言单位,一种音义结合的定型结构、所谓自由运用,有以下三种情况:
(1)能单说,能单独回答问题
热不热?—热。
谁?—我。
(2)不能单说,但能充当句法成分
加倍努力超额完成
(3)剩余法:用于虚词
(二)固定语
自由短语词跟词按表达需要的
临时组合看报、撰写论文
固定短语词跟词的固定组合,
不能任意增减、改换,
功能上相当于一个词
北京大学、固若金汤、
耍花招
2、固定语分类
(1)专名(专有名称)
•企事业单位的名:联合国世界卫生组织
•会议名:北京国际女子马拉松赛
•作书名、篇名、杂志名、电影电视片名等
特点:作为一个整体使用,中间不能加入别的成分
(2)熟语
是人们常用的定型化了的固定语,是一种特殊的词汇成语饮水思源、千钧一发
惯用语吹牛皮,走过场
歇后语外甥打灯笼---照旧
谚语当天和尚撞天钟
(三)略语
略语:是比较复杂的经过压缩和省略的词语。
是为了称说方便而常把较长的名称或习用短语化段,成为略语
•简称:较复杂的名称的简化形式
家用电器——家电外交部长——外长
•数词略语:对一些习用的联合短语,选择其中各项的共同语素加上短语包含的项数,即构成数词略语
陆军、海军、空军——三军
•简称不当会造成误解
一词义不同划分角度
词义划分角度
语法意义
词汇意义
广义的词义分类
比喻义
义项之间的派生关系
引申义本义
常用义基本义义项的现实作用
虚附属色彩义
概念义
信息内容的性质
生僻义四词义
词汇意义分类
词汇意义
言语义
色彩义
反身指代义
概念意义
语法意义
•语法意义是词所表示的语法特点和语法作用的意义
•任何词都有语法意义
•语法意义是一种概括性更强、概括程度更高的意义类型。
•词汇意义、色彩意义、语法意义是词义内容不可或缺的组成部分,三位一体的统一才是词义完整的内容
•词汇意义是词义内容的核心,是色彩意义和语法意义产生的基础
二词义的分析
(一)义项(义位)
词义的最小单位就是词义的义项
义项的分类
(1)基本义
(2)转义:A)引申义B)比喻义
(二)义素
•1、定义
•比较一群相关的词(语义场)的词义,概括出词义的共同特征和不同特征,这些特征就是义素
•是构成词义的最小意义单位,又叫语义特征或语义成分
•2、义素的分析
•(1)明确分析的对象:选择同一语义场的词
•(2)进行词义之间的比较,找出共同特征与区别特征,即义素
3、义素分析的作用
•准确地解释词义
大风——[+大的速度][+流动][+空气]
旋风——[+以旋转的方式进行][+流动][+空气]
自转——+转动+绕着+自己的轴心+天体
公转——+转动+绕着+另一个天体+天体
•突出词义组合之间的关系
吃——[+进食的行为][+固体]
喝——[+进食的行为][+液体]
吸——[+进食的行为][+气体]
分类建立规则库的根据之一
(三)语义场
在词义上具有共同特征的一群词聚合而成的类,又叫词群。
语义场是对外部世界系统性的反映。
一个多义词不同的义项分属不同的语义场。
通过语义场划分,将词库分成一系列的词群,便于精确查找数据
语义场分类
类属义场成员属同一个类锅—碗—瓢—盆
小学—中学—大学顺序义场成员按照某种固定
的顺序
关系义场互相对立互相依靠原告被告、主子奴
才、上级下级
部分义场对象的各组成部分彗星的:彗核、彗
发、彗尾
反义义场意义相反动静、死活、男女
穷富、美丑、老少两级义场两极中间有中间地
带
同义义场同义词群可靠牢靠、凉快凉
爽
提高语义识别方法
(1)提高语音识别系统性能,利用语音消除歧义包括停顿和重音等手段
•(2)利用语境,通过上下文的制约,消除歧义
•(3)增大知识库词汇容量,便于更准确的分词
•(4)制定相关规则,限定分词范围,便于准备搜索
•(5)采取词性分类、色彩分类等方式,将知识库分类
•(6)逐步完善规则库
我要看《英雄》
我|要|看|《英雄》
分词处理及语义消歧
语义词典
查询电影
意图分类及参数提取
机器可处理
指令
电话、短信、股票、电影。
业务模型
自然语言输入。