当前位置:文档之家› 第七章自然语言理解案例

第七章自然语言理解案例


层间循环依赖问题
• 循环依赖
– 高层模块建立在底层模块分析的基础上 – 底层模块需要高层模块的指导才能准确分析
• 如何克服这种致命的矛盾
– 简单级联
• 每层的准确率是90%,如果系统分6层,最终结果是:53%; 即使每层95%,最终结果73%
– 一体化:如分词/词性标注一体化 – 反馈
• 人是怎么做的?
– 例如: work + er → worker
do + ing →doing
机器理解自然语言的步骤
• 分词
– 将句子切分为词序列
– 例如:钓鱼岛/是/中国/的/领土/。
• 词性标注
– 给句子的词标注正确的词性
– 例如:钓鱼岛n/是v/中国n/的de/领土n / 。
• 句法分析
S
NP
VP
– 分析句子的组成结构,
• 其他名称:
– 自然语言处理(Natural Language Processing,NLP) – 自然语言理解(Natural Language Understanding,
NLU) – 人类语言技术(Human Language Technology)
• 相关名称:
– 中文信息处理(Chinese Information Processing) – 网络信息处理(Web Information Processing)
• 编译器
• 例子:
• 词法分析
– 将输入的字符流切分为token序 符号表
列。
1 Position ...
• 语法分析:
2 Position ... 3 Position ...
4
– 句子结构分析。
• 语义分析:
– 检测语义错误。
Position := initial + rate * 60
词法分析器
– 经验主义
• 理论:基于Shannon 的信息论。语料库语言学(corpus linguistics) • 方法:根据给定的语言问题,构造一个概率模型,通过真实数据(语料
– 句子结构成分之间的相互关系。 V
NP
– 判定一个句子的合法性
钓鱼岛 是
中国 的 领土
机器理解自然语言的步骤
• 词义消岐
– 研究给句子的词标注正确的词义。 – 例如:这个人真牛。//牛:动物|了不起。
• 语义分析(这句话说了什么)
– 研究如何从一个语句中词的意义,以及这些词在该语 句的句法结构中的作用来推导出该语句的意义。
– 文本编码识别、转换:GB、Big5、Unicode。
• 句子切分
– 句子边界识别
– 例如:Mr. Wang likes swimming, dancing and reading.
• 形态分析:
– 研究构词方法,词的有意义的组合。
– 构词的基本单位:词素(词根、前缀、后缀、词尾)
– 例如:老虎← 老+ 虎; 图书馆← 图+ 书+ 馆
• 例子:他很男人。(名词不能受程度副词修饰)
– 由于作者疏忽造成的错误 – 真实的语言是非常脏的
重述(Paraphrasing)
• 举例
– 毛泽东出生于1893年 – 毛泽东出生在1893年 – 毛泽东诞生于1893年 – 毛泽东同志是1893年出生的 – 毛主席生于1893年 – 毛泽东生于光绪6年(虚拟的)
应用大规模真实文本中的例子,训练模型的参数。 • 功能主义者
理性主义和经验主义
• 研究方法不同
– 理性主义
• 理论:一般根据Chomsky 语言理论,设计语言描述文法。 • 方法:根据一些语言现象,总结出语言规则,形成语言的规则集。 • 应用:应用语言规则,分析句子的结构,判断其合法性。 • 根据句子中词的语义,以及它在句子结构中的作用,推断出句子的语义。
Miss Smith put (+ed) two book+s on this table.
• 句法分析(Syntactic Analysis):分析句
子的结构。
S
NP
VP
V NP
PP
Miss Smith put two books on the table.
• 词汇转换
Miss
Smith
put (+ed)
[基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等
[资源建设] 语料库资源建设 语言学知识库建设
软件企业 NLP研究者 语言学家
NLP的学科特点
• 交叉性学科
– 语言学:语言学基础知识。
• 语言学理论:形式语言文法 • 语言学资源:词典、语料库、知识库
– 数学
• 语料库语言学的数学基础:概率论、统计学、信息论。 • 模型:自动机、Markov模型、HMM等。
– 语言和世界的映射关系 – 施事、受事、工具等
• 语用分析(为什么要说这句话 )
– 研究不同语境中的语句的应用,及语境对语句理解的 作用
– 语言交际目的:主题、述体、焦点
机器理解自然语言的步骤
• 篇章分析
– 分析篇章的结构、主题、观点、摘要、有用信息。
• 主题分析 • 观点分析 • 自动文摘 • 信息抽取 • 信息过滤
id1 := id2 + id3 * 60
语法分析器
:=
id1
+
id2
*
id3
60
语义分析器
:=
id1
+
id2
id3
* inttoreal
60 中间代码生成器
编译器工作过程
• 编译器
中间代码生成器
• 例子: • 中间代码生成
– 生成中间表示。
temp1 := inttoreal( 60) temp2 := id3 * temp1 temp3 := id2+ temp2 id1 := temp3
– 人在瞬间综合运用各个层面的知识
NLP方法论
理性主义和经验主义
• 对语言知识来源的不同认识
– 理性主义
• 信仰Chomsky的语言本能的观点。(先天论) • 先天语言结构:人的大部分语言知识是与生俱来的,
由遗传决定的。
– 经验主义
• 人的语言知识是从感官的输入,通过联想、模式识 别、泛化等操作学习到的。(学习论)
two
book+s
on
this
dining table.
小姐 史密斯 放 两 书 在…上面 这 餐桌
• 短语转换
小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面
• 生成
– 史密斯小姐放两书在这桌子上面。 – 史密斯小姐(把)两(本)书放在这(张)桌子上面。
• 最终翻译结果
– 英文: Miss Smith put two books on the table. – 中文:史密斯小姐把两本书放在这张桌子上面。
机器如何理解自然语言?
• 机器理解自然语言的步骤
– 文本预处理 – 句子切分 – 形态分析 – 分词 – 词性标注 – 句法分析 – 词义消岐 – 语义分析 – 语用分析 – 篇章分析 – 海量文档处理
机器理解自然语言的步骤
• 文本预处理:
– 文本采集
– 文本格式转换:PDF、Office、HTML纯文本
NLP的困难
歧义(Ambiguity) 病构(Ill-Formedness)
——台湾:苏克毅
歧义
• 注音歧义
– 快乐(le4)的单身汉 – 火红的第五乐(yue4)章
• 分词歧义
– 交叉型歧义
• 研究/ 生命/ 的/ 起源 • 研究生/ 命/ 的/ 起源
– 组合型歧义
• 他/ 从/ 马/ 上/ 下来 • 他/ 从/ 马上/ 下来
– 随着互联网的发展而复苏 – 互联网为NLP提供了市场需求和试验数据
NLP现状
• 仍然缺乏理论基础 • 词汇句法的问题尚未解决,已开始挑战语
义、知识等深层课题 • 基于统计的NLP技术占据主流 • 规则和统计相结合的NLP研究方法 • 网络信息处理成为NLP新热点 • Ontology受到普遍重视 • 一切才刚刚开始……
• 词义歧义
– 打[玩]乒乓球 – 打[编制]毛衣 – 打[通讯]电话 – ……
• 语用歧义
– “你真讨厌!”
病构
• 真实文本的语言现象非常复杂,不规范,不干净 • 自然语言中存在未知的语言现象
– 新的词汇:
• 例如: “非典” 、专业术语、外来语、人名等
– 新的词义:
• 例如:窗口、奔腾等
– 新的语句结构:尤其在口语或网络语言,不断出现一 些“非规范的”新的语句结构。
• 分词歧义
– 和未登录词绞在一起
• 刘挺/ 拔/ 出/ 宝剑 • 刘/ 挺拔/ 出/ 宝剑
– 多交集字段的歧义
• 结合/ 成分/ 子 • 结/ 合成/ 分子 • 结合/ 成/ 分子
– 有的歧义无法在句子内部解决
• 乒乓球/拍卖/完/了 • 乒乓球拍/卖/完/了
• 短语歧义
– [咬死猎人]的狗 – 咬死[猎人的狗]
Introduction of Artificial Intelligence
内蒙古大学计算机学院 闫蓉
Mail: csyanr@
第七章 自然语言处理概述
基本概念
• 什么是计算语言学(Computation Linguistics)
– 用机器处理人类语言的理论和技术。 – 构造计算模型,用于自然语言的分析、转换、生成。
机器如何理解自然语言?
• 机器对自然语言的理解方法,可借鉴编译器的工作原理。
– 机器通过编译器,可以分析、理解人工语言(程序设计语言) – 编译器:读入源语言程序,将其翻译成目标语言的程序。
相关主题