当前位置:
文档之家› 哈工大人工智能课件chpt9
哈工大人工智能课件chpt9
• 分析分为3个子过程(人为划定—是否就 是人类理解语言的过程?)
• 句法分析—为输入字符串建立句法分析树 • 语义解释—表示为某种表达式,如谓词逻辑 / 可能有歧义—此时存在多个表达式 • 语用解释—考虑到同样词语集合在不同情境 下有不同含义 / 语用能为一个语句的最终解 释给出更大贡献
• 有了3个子过程,分析仍然可能给出几个 解释,排歧就是选择其中最好的一个
14
一个NLP的例子:英汉翻译
• 输入英文句子:
• Miss Smith put two books on this table.
• 形态分析(Morphological Analysis)
• 词形还原(Lemmatization):将词还原为词典中的原型。 • 词汇符号化(Tokenization):相当于中文分词。 • 分析结果: Miss Smith put two book+s on this table.
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理 文本采集 文本格式转换:PDF、Office、 HTML 纯文本 文本编码识别、转换:GB、 Big5、Unicode。
19
机器如何理解自然语言?
21
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/。
22
机器如何理解自然语言?
• 机器理解自然语言的步骤
• 由于语义相对于语法是深层结构,而语法 作为表层结构其规则经过了很长时间的研 究形成了相对稳定的体系—更多的结构表 示来自语法
• 合乎语法的字符串→子串—短语结构
语言与通讯
• 通讯是一种通过产生和感知信号带来的 有意图的信息交换 / 信号来自一个由约定 信号组成的共用系统 • 人类区别于其他动物的特征是语言—复 杂的结构化信息系统 • 对智能体而言,产生语言的行动称为言 语行为
• “言语”=“言论自由”中的言论
4
第9章 自然语言理解简介
言语行为的目的
• 通过言语行为达成联合规划:
V
VP
NP
钓鱼岛 是
中国 的 领土
分析句子的组成结构, 句子结构成分之间的相互关系。 判定一个句子的合法性
24
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
• 询问其他智能体关于世界的信息—提问 • 相互通知关于世界的信息—陈述 • 请求其他智能体行动—指令(包括礼貌的间 接言语行为、命令等) • 应答请求 • 承诺或提出计划
• 宣言式言语行为—对世界有更直接的影 响—诸如“现在我宣布……”
5
第9章 自然语言理解简介
通讯的组成步骤
• 人类语言产生的目的—认知和通讯 / 典型 的通讯情节—说话者S用词语集合W将关于 命题P的信息通知聆听者H,包括7个过程
研究给句子的词标注正确的词义。 例如:这个人真牛。 //牛:动物|了不起。
25
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
研究如何从一个语句中词的意 义,以及这些词在该语句的句 法结构中的作用来推导出该语 句的意义。 语言和世界的映射关系 施事、受事、工具等
30
NLP的研究内容(应用研究) NLP的研究内容(应用研究) 的研究内容
31
NLP的不同层次
[应用系统] 数字图书馆、电子商务、搜索引擎 电子政务、远程教育、语言学习 [应用技术研究] 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取 NLP研究者 [基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等 [资源建设] 语料库资源建设 语言学知识库建设 语言学家
12
为什么要研究自然语言处理?
• 信息时代到了!语言是信息的载体。 • 提高计算机的智能:能理解和处理大量语言信息。
13
机器能够理解人的语言吗?
• 很难,但是没有证据表明不行。 • 什么是理解?
• 结构主义:机器的理解机制与人相同。 • 问题在于谁也说不清自己理解语言的步骤。 • 功能主义:机器的表现与人相同。 • 图灵测试:如果通过自然语言问答,一个人无法 识别和他对话的是人还是机器,那么就应该承认 机器具有智能。
• 考虑用处理形式语言的方式处理自然语言
• 自然语言可以用不同的但是相互联系的 几组符号来表示—包括语法、语义、语 用等 / 尽可能采用形式化表示
35
第9章 自然语言理解简介
自然语言的符号系统(1) 自然语言的符号系统(1)
• 符号系统的核心是语义表示
• 语义的基础是词汇—自然语言中的终结符号, 由它们依据一定规则构成有效字符串 / 不能 “让人听不明白” • 语义必须保证其表示能够在智能体之间有效 地进行通讯—与有效的字符串结合 / 予以需 要借助于语法进行表示
8
第9章 自然语言理解简介
9.1.2 自然语言处理
What is NLP?
• 什么是自然语言处理(Natural Language Processing,NLP)
• 是用计算机通过可计算的方法对人类语言进行转换、传输、存贮、 分析等加工处理的理论和方法。 • 构造计算模型,用于自然语言的分析、转换、生成。
10
基本概念
• 什么是自然语言
• • • • 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的工具。 语言的两种属性-文字和声音 人类历史上以语言文字形式记载和流传的知识占知 识总量的80%以上。
11
基本概念
• 什么是处理
• 处理是指对信息的接收、存储、转化、传送和发布等 等操作 • 分级:字级处理、概念处理和智能处理 • 智能处理的主要研究领域:自然语言理解、计算机视 觉、机器人学及知识工程 • 智能的未来发展,将会对知识库、专家系统、推理系 统和神经网络等综合应用,达到能够模拟人类比较复 杂的思维和行为
32
软件企业
NLP的学科特点(交叉性学科)
• 语言学:语言学基础知识。
• 语言学理论:形式语言文法 • 语言学资源:词典、语料库、知识库
• 数学
• 语料库语言学的数学基础:概率论、统计学、信息论。 • 模型:自动机、Markov模型、HMM等。
• 计算机科学
• 机器学习:机器的学习算法 • 人工智能(问题求解,知识表示,状态空间图搜索算法)
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
研究构词方法,词的有意义的组 合。 构词的基本单位:词素(词根、 前缀、后缀、词尾) 例如:老虎← 老+ 虎; 图书馆← 图+ 书+ 馆 例如: work + er → worker do + ing →doing
• 语法是详细说明一种语言的有限规则集合
• 自然语言没有正式语法 / 语言学家试图通过 科学调查发现语言的特性,并编纂语法 / 还 没有一个完全成功
36
第9章 自然语言理解简介
自然语言的符号系统(2) 自然语言的符号系统(2)
• 语义离不开具体的通讯环境 / 理解一个字 符串的语用很重要
• 语用是在一个特定情境(通讯环境)下表达出 的字符串的实际含义
人工智能原理
第9章 自然语言理解简介
第9章 自然语言理解简介
本章内容
9.1 语言与通讯 9.2 句法分析与语法 9.3 概率语言模型 9.4 信息检索 9.5 信息抽取 9.6 统计机器翻译 参考书目
第9章 自然语言理解简介
9.1 概述
9.1.1 语言与通讯 9.1.2 自然语言处理
第9章 自然语言理解简介
27
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
分析篇章的结构、主题、 观点、摘要、有用信息 主题分析 观点分析 自动文摘 信息抽取 信息过滤
26
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
为什么要说这句话 研究不同语境中的语句的应用, 及语境对语句理解的作用 语言交际目的:主题、述体、焦 点
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
给句子的词标注正确的词性 例如: 钓鱼岛n/是v/中国n/的de/领土n / 。
23
S
机器如何理解自然语言? NP
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
• 其他名称:
• 计算语言学(Computation Linguistics) • 自然语言理解(Natural Language Understanding,NLU) • 人类语言技术(Human Language Technology)