当前位置:
文档之家› NLP及其医疗应用-20180516
NLP及其医疗应用-20180516
10
文本预处理 文本采集 文本格式转换:PDF、Office、HTML纯文本 文本编码识别、转换:GB、Big5、Unicode。
句子切分 句子边界识别 例如:I like eating, dancing & reading
形态分析 研究构词方法,词的有意义的组合。 构词的基本单位:词素(词根、前缀、后缀、词尾) 例如:老虎←老+虎;图书馆←图+书+馆 例如: work + er → worker, do + ing →doing
语义分析(这句话说了什么) 研究如何从一个语句中词的意义,以及这些词在该语句的
句法结构中的作用来推导出该语句的意义 语言和世界的映射关系 施事、受事、工具等
语用分析(为什么要说这句话 ) 研究不同语境中的语句的应用,及语境对语句理解的作用 语言交际目的:主题、述体、焦点
篇章分析 分析篇章的结构、主题、观点、摘要、有用信息。 主题分析/观点分析/自动文摘/信息抽取/信息过滤
5
语言模型:人工规则方法
语言学 语义学 认知科学 人工智能
写规则
规则
自然语言输入
x
处理系统
处理结果
6
语言模型:统计学习方法
统计学习
自然语言输入
x1x2 xn
自然语言输入
x n 1
建立模型
学习系统
预测系统
ห้องสมุดไป่ตู้
概率模型
预测
ˆp( xn1 )
7
融合方法
基于规则的方法
形式语言 语法理论 词法理论 推理方法 ……
双语词典
双语对齐
模 型 桥枢 接轴
语 言 翻 译 知技 识术 桥 接
④枢轴语言翻译
①基于互联网大数据的翻
虚拟集群管理
性能优化
译模型
机器翻译云平台
17
自动应答系统流程(例如英语教学)
自动问答(Question Answering,QA):它是一套可以理解复杂问题,并以充分 的准确度、可信度和速度给出答案的计算系统,以IBM‘s Waston为代表
• 语言词语的关系集合被表征为向量集合 • 向量空间内,不同语言享有许多共性 • 实现一个向量空间到另一个向量空间的映射和转换
Decoder 语义向量
Encoder
• 图为英语和西班语的五个词在向量空间中的位置 (已经过降维)
• 对英语和西班语之间的翻译准确率高达90%
16
基于大数据的互联网机器翻译核心技术
符号智能 + 计算智能,建立融合方法
8
句子的自动理解
简单句的理解方法
• 理解语句中的每一个词 • 以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分
成以下3个部分来进行:
• 句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构
• 语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对 象之间进行映射变换
源语言
翻译解码系统
目标译文
统 计
多 策实 略例 翻 译 方 法规
则
领自 域适
应
语言模型 句法分析
短语模型
翻译建模 句法模型
语义分析
翻译建模 统计分析
②基于互联网大数据的 高质量翻译知识获取
双语探测
单语资源
翻译建模 双语例句
互译计算
翻译建模 词法 分析
互联网海量资源
调序模型 ③基于深度语义的语
言分语析言和模翻型译技术
自然语言处理基础 语言模型与智能应答 “人工智能+医疗”八大应用场景 医疗AI的未来
13
语言模型(统计)
语言模型形式化的描述就是给定一个字符串”w1, w2, w3, w4, … , wt”,看它是自然语 言的概率 P(w1,w2,…,wt)。w1 到 wt 依次表示这句话中的各个词。
P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1) (N-Gram,N=1)
文本输入 语音识别 触控操作 操作界面 语音合成 文本输出
自然语言理解 (NLU)
触发机制
主动引导语料 的生成和拼接
场景 识别
自然语音生成 (NLG)
提问
英语教学引擎 (ETE)
回答
18
基本架构
用户
人机交互界面 开放领域/受限领域
问题 事实性问题、列表问题、假 设问题、确认问题、因果问
题
答案 文字片段、多媒体数据片段、
• 自然语言理解所需的相关知识
• 语音知识:词如何与语音相关以及如何实现语音 • 词法知识:词的构成方法,词的不同形式对句法和语义的影响 • 句法知识:词如何排列成句 • 语义知识:词的意义是什么,词义如何组合成句子的意义。这里所讲的语义是上下文无关
的 • 语用知识:句子如何运用于不同的场合,以及在不同场合的运用对句子解释的影响 • 篇章知识:刚分析的句子如何影响下一句的解释(分析)。这对名词、代词的处理非常重要 • 世界(环境)知识:语言使用者为理解篇章(或维持对话)所必须具有的关于世界(或环境)与
分词
将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/ 词性标注
给句子的词标注正确的词性
例如:钓鱼岛n/是v/中国n/的de/领土n / 句法分析
分析句子的组成结构 句子结构成分之间的相互关系 判定一个句子的合法性
词义消岐 研究给句子的词标注正确的词义。 例如:这个人真牛。//牛:动物|了不起。
答案生成
答案表示 答案检验、自动摘要
答案排序融合 句子相似度计算、依存关系分
析、多信息融合
知识检索 数据挖掘、自然语 言处理、知识检索
与发现
答案评估 TREC、CLEF、NTCIR、TRECLQA Track
知识库
基于统计的方法
语言模型 HMM 机器学习 搜索方法 ……
• 机器学习针对于传统方法
……
• 知识表示和获取的分离
• 语料构建:专注于知识表示
• 机器学习:专注于知识获取
• 对比:专家系统 • 规则的获取和表示是同步的。 • 规则的管理是低效率的,困难的。
……
未来发展趋势 • 理性主义与经验主义的结合,即
细分类
特点
举例
数据
有标注
(自动、隐性)
相
无标注
关
伪数据
的
数
知识
元知识
据
(人工、显性)
语言知识
知 识
常识知识
和
世界知识
方
算法
NLP算法
法
(动态的)
机器学习算法
专家标注、众包 原始语料 量大 关于知识的知识 词典、规则库 很难从文本中挖掘 可以从文本中挖掘 跟语言知识密切相关 统计建模 特征表示与学习
Penn TreeBank
当的词汇和一定的句法规则,把要交流的信息以句子形式表达出来
计算语言学是从计算角度处理语言
– 将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示
语言的第一系统和第二系统
– 第一系统:语音系统 Sound System – 第二系统:文字系统(书写系统) Writing System
海量文档处理 信息检索 例如搜索引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪 信息自组织
匹配
分类
结构预测
生成
NLP
形式
搜索
文本分类
词性标注
机械文摘
问
语义
题
推理
分
布
语用
问答 文本蕴含
情感倾向性 隐式情感分析
反语
语义依存分析 隐式消费意图挖掘
机器翻译 写故事结尾 聊天机器人
大类
《人民日报》、微博
情感分析中对表情符的利用
人工定义的表示,特征工程
WordNet、大词林(BigCilin)
哈 工
CYC
大 刘
知识图谱
挺 教
授
CKY, Viterbi, Beam-search
总
结
SVM、CRF、Q-Learching、RNN、CNN
12
目录 content
第一节 第二节 第三节 第四节
如何判断一句话是不是自然语言?
P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃) p(大家)表示“大家”这个词在语料库里面出现的概率; p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率; p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率; p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
口头语和书面语
语言单位
– 字符、词(Word)、短语(Phrase)、句子(Sentence) 、语段或篇章
语言学基本知识
• 符号学是用数学方法研究语言学的基础,包括
– 符号关系学(Syntactic),研究符号串中符号间的(表层)关系 – 语义学(Semantics),研究符号与其所指事物间的(深层)关系 – 语用学(Pragmatics),研究交际中如何选用符号来表达意义
– 主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的发现、提取、存储、加 工与传输
– NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科
自然语言生成(Natural Language Generation)
– 把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来 – 是自然语言理解的一个逆过程。一般包括(1)建立一种结构,以表达出需要交流的信息;(2)以适