当前位置：文档之家› NLP及其医疗应用-20180516

NLP及其医疗应用-20180516

10
文本预处理文本采集文本格式转换：PDF、Office、HTML纯文本文本编码识别、转换：GB、Big5、Unicode。
句子切分句子边界识别例如：I like eating, dancing & reading
形态分析研究构词方法，词的有意义的组合。构词的基本单位：词素（词根、前缀、后缀、词尾) 例如：老虎←老＋虎；图书馆←图＋书＋馆例如： work + er → worker， do + ing →doing
语义分析（这句话说了什么）研究如何从一个语句中词的意义，以及这些词在该语句的
句法结构中的作用来推导出该语句的意义语言和世界的映射关系施事、受事、工具等
语用分析（为什么要说这句话）研究不同语境中的语句的应用，及语境对语句理解的作用语言交际目的：主题、述体、焦点
篇章分析分析篇章的结构、主题、观点、摘要、有用信息。主题分析/观点分析/自动文摘/信息抽取/信息过滤
5
语言模型：人工规则方法
语言学语义学认知科学人工智能
写规则
规则
自然语言输入
x
处理系统
处理结果
6
语言模型：统计学习方法
统计学习
自然语言输入
x1x2 xn
自然语言输入
x n 1
建立模型
学习系统
预测系统
ห้องสมุดไป่ตู้
概率模型
预测
ˆp( xn1 )
7
融合方法
基于规则的方法
形式语言语法理论词法理论推理方法 ……
双语词典
双语对齐
模型桥枢接轴
语言翻译知技识术桥接
④枢轴语言翻译
①基于互联网大数据的翻
虚拟集群管理
性能优化
译模型
机器翻译云平台
17
自动应答系统流程（例如英语教学）
自动问答（Question Answering，QA）：它是一套可以理解复杂问题，并以充分的准确度、可信度和速度给出答案的计算系统，以IBM‘s Waston为代表
• 语言词语的关系集合被表征为向量集合 • 向量空间内，不同语言享有许多共性 • 实现一个向量空间到另一个向量空间的映射和转换
Decoder 语义向量
Encoder
• 图为英语和西班语的五个词在向量空间中的位置（已经过降维）
• 对英语和西班语之间的翻译准确率高达90%
16
基于大数据的互联网机器翻译核心技术
符号智能＋计算智能，建立融合方法
8
句子的自动理解
简单句的理解方法
• 理解语句中的每一个词 • 以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分
成以下3个部分来进行：
• 句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构
• 语义分析各种意义被赋于由句法分析程序所建立的结构，即在句法结构和任务领域内对象之间进行映射变换
源语言
翻译解码系统
目标译文
统计
多策实略例翻译方法规
则
领自域适
应
语言模型句法分析
短语模型
翻译建模句法模型
语义分析
翻译建模统计分析
②基于互联网大数据的高质量翻译知识获取
双语探测
单语资源
翻译建模双语例句
互译计算
翻译建模词法分析
互联网海量资源
调序模型 ③基于深度语义的语
言分语析言和模翻型译技术
自然语言处理基础语言模型与智能应答 “人工智能+医疗”八大应用场景医疗AI的未来
13
语言模型（统计）
语言模型形式化的描述就是给定一个字符串”w1, w2, w3, w4, … , wt”，看它是自然语言的概率 P(w1,w2,…,wt)。w1 到 wt 依次表示这句话中的各个词。
P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1) (N-Gram，N=1)
文本输入语音识别触控操作操作界面语音合成文本输出
自然语言理解（NLU)
触发机制
主动引导语料的生成和拼接
场景识别
自然语音生成（NLG）
提问
英语教学引擎（ETE）
回答
18
基本架构
用户
人机交互界面开放领域/受限领域
问题事实性问题、列表问题、假设问题、确认问题、因果问
题
答案文字片段、多媒体数据片段、
• 自然语言理解所需的相关知识
• 语音知识：词如何与语音相关以及如何实现语音 • 词法知识：词的构成方法，词的不同形式对句法和语义的影响 • 句法知识：词如何排列成句 • 语义知识：词的意义是什么，词义如何组合成句子的意义。这里所讲的语义是上下文无关
的 • 语用知识：句子如何运用于不同的场合，以及在不同场合的运用对句子解释的影响 • 篇章知识：刚分析的句子如何影响下一句的解释(分析)。这对名词、代词的处理非常重要 • 世界(环境)知识：语言使用者为理解篇章(或维持对话)所必须具有的关于世界(或环境)与
分词
将句子切分为词序列例如：钓鱼岛/是/中国/的/领土/ 词性标注
给句子的词标注正确的词性
例如：钓鱼岛n/是v/中国n/的de/领土n / 句法分析
分析句子的组成结构句子结构成分之间的相互关系判定一个句子的合法性
词义消岐研究给句子的词标注正确的词义。例如：这个人真牛。//牛：动物｜了不起。
答案生成
答案表示答案检验、自动摘要
答案排序融合句子相似度计算、依存关系分
析、多信息融合
知识检索数据挖掘、自然语言处理、知识检索
与发现
答案评估 TREC、CLEF、NTCIR、TRECLQA Track
知识库
基于统计的方法
语言模型 HMM 机器学习搜索方法 ……
• 机器学习针对于传统方法
……
• 知识表示和获取的分离
• 语料构建：专注于知识表示
• 机器学习：专注于知识获取
• 对比：专家系统 • 规则的获取和表示是同步的。 • 规则的管理是低效率的，困难的。
……
未来发展趋势 • 理性主义与经验主义的结合，即
细分类
特点
举例
数据
有标注
（自动、隐性）
相
无标注
关
伪数据
的
数
知识
元知识
据
（人工、显性）
语言知识
知识
常识知识
和
世界知识
方
算法
NLP算法
法
（动态的）
机器学习算法
专家标注、众包原始语料量大关于知识的知识词典、规则库很难从文本中挖掘可以从文本中挖掘跟语言知识密切相关统计建模特征表示与学习
Penn TreeBank
当的词汇和一定的句法规则，把要交流的信息以句子形式表达出来
计算语言学是从计算角度处理语言
– 将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式（计算模型）加以表示
语言的第一系统和第二系统
– 第一系统：语音系统 Sound System – 第二系统：文字系统(书写系统) Writing System
海量文档处理信息检索例如搜索引擎、数字图书馆文本分类、聚类分类检索、聚类检索话题探测与追踪信息自组织
匹配
分类
结构预测
生成
NLP
形式
搜索
文本分类
词性标注
机械文摘
问
语义
题
推理
分
布
语用
问答文本蕴含
情感倾向性隐式情感分析
反语
语义依存分析隐式消费意图挖掘
机器翻译写故事结尾聊天机器人
大类
《人民日报》、微博
情感分析中对表情符的利用
人工定义的表示，特征工程
WordNet、大词林（BigCilin）
哈工
CYC
大刘
知识图谱
挺教
授
CKY, Viterbi, Beam-search
总
结
SVM、CRF、Q-Learching、RNN、CNN
12
目录 content
第一节第二节第三节第四节
如何判断一句话是不是自然语言？
P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃) p(大家)表示“大家”这个词在语料库里面出现的概率； p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率; p(吃|大家，喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率； p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
口头语和书面语
语言单位
– 字符、词(Word)、短语(Phrase)、句子(Sentence) 、语段或篇章
语言学基本知识
• 符号学是用数学方法研究语言学的基础，包括
– 符号关系学（Syntactic），研究符号串中符号间的(表层)关系 – 语义学（Semantics），研究符号与其所指事物间的(深层)关系 – 语用学（Pragmatics），研究交际中如何选用符号来表达意义
– 主要研究如何让机器进行自然语言信息处理，即人类语言活动中，信息成分的发现、提取、存储、加工与传输
– NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科
自然语言生成（Natural Language Generation）
– 把在计算机内部以某种形式存放的需要交流的信息，以自然语言的形式表达出来 – 是自然语言理解的一个逆过程。一般包括（1）建立一种结构，以表达出需要交流的信息；（2）以适

e商务文档

NLP及其医疗应用-20180516

相关文档推荐：