自然语言处理与文本挖掘概述
/exdb/lenet/index.html
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
NLP的研究内容
信息检索 机器翻译 文档分类 问答系统
信息过滤
自动文摘 信息抽取 文本挖掘 舆情分析 机器写作 文稿机器校对 OCR或语音识别
各个符号依次写在 x 符号串之后得到的符号串称为 x 与 y 的连接,记作 xy。
符号串集合的乘积:设A、B是字符表∑上符号串的集合,则A和B的乘积定义 为AB={ xy | x ϵ A ,y ϵ B }。其中,A0={ε}。当n≥1,An=An-1A=AAn-1。 闭包运算:字符表∑上的符号串集合V的闭包定义为:V*=V0UV1UV2U…, V+=V1UV2U…,V+=V*-{ε }。 |x|:字符串x的长度
人类自洪荒时代开始,以语音,记号(文字)为载体的信息记录形式,用于个体或集 体交流,知识传承(动物有语言吗?) 人类具备复杂语言能力后,加快了社会化的发展和知识积累,以跨越时间和个体的集 体智慧登上了生物金字塔的顶端
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
自然语言
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
乔姆斯基
麻省理工语言学教授,他的《生成语法》 被认为是20世纪理论语言学研究上最伟大 的贡献。 形式语言常出现在早期的自然语言处理技 术中,是当时几乎唯一的处理方法。可以 用于描述自然语言的语法规律,最大限度 的逼近自然语言(或其子集),并且很容 易可以生成语言内容 形式语言与自动机之间存在的对应关系, 使其天生就容易被计算机处理
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
24
图
有向图:有向图 D 可以定义为一个二元组 D=(N,E),其中,N 是顶点的非空有限 集合, N {ni | i 0,1,, k} (与无向图一样);E是边的有限集合 E {(ni , n j ) | ni , n j N} 且 (ni n j ) (n j , ni )。ni , n j E 是顶点 ni 的出边,顶点 n j 的入边。 D=( N, E ) N={ V1,V2,V3,V4,V5,V6 } E= { ( V1,V2 ),(V1,V5 ), , …, ( V5,V3 ),( V5,V6 ) }
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
26
图
回路:设P是有向图D的一条路径,P=ni0 ,ni1 ,…,nik,如果ni0=nik,则称P是 D的一条回路。即开始与终结于同一顶点的通路称为回路。如果k=0,则P称 为自回路。若P是无向图G的一条路径,P=ni0 ,ni1 ,…,nik,ni0=nik,且k>0, 那么,称 P是G的一条回路。若图中无任何回路,则称该图为无回路图。
己设计,编写NLP应用的程序奠定基础
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
参考书
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
20
形式语言
自然语言(Natural Language)就是人类讲的语言,比如汉语、英语和法语。这类语 言不是人为设计(虽然有人试图强加一些规则)而是自然进化的。形式语言(Formal Language)是为了特定应用而人为设计的语言。例如数学家用的数字和运算符号、化 学家用的分子式等。编程语言也是一种形式语言,是专门设计用来表达计算过程的形 式语言。 形式语言理论主要研究的是内部结构模式这类语言的纯粹的语法领域。形式语言理论 是从语言学衍生而来,作为一种理解自然语言的句法规律。在计算机科学中,形式语 言通常作为定义编程语言和语法的基础,是正式版本的自然语言的子集。在计算复杂 性理论中,决策问题通常定义为形式语言,复杂类被定义为形式语言的集合,它能被 具有有限计算能力的机器所解析。在逻辑和数学基础中,形式语言是用来表示公理系 统的语法。
G=( N, E )
E {(ni , n j ) | ni , n j N}
N={ V1, V2,V3,V4,V5,V6 } E={ ( V1, V2 ), ( V1, V3 ), ( V1, V4 ), ( V2, V5 ), ( V3, V4 ), ( V3, V5 ), ( V3, V6 ), ( V4, V6 ), ( V5, V6 ) }
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
LIVAC
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
16
LDC中文树库
/~chinese/ctb.html
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
由语音,词汇,语法构成 语音是语言的物质外壳,是最原始形式的语言 文字是记录语言的书写符号系统 语言学与语音学
种族与语言的演变,梵语
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
5
语言的复杂性
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
14
(学习)NLP的困难
场景的困难:语言的多样性,多变性,歧义性 学习的困难:艰难的数学模型(概率图模型:隐马尔科夫过程HMM,最大熵模型,条 件随机场CRF等),有人戏称深度学习和NLP是数据科学家的标配(都很难理解) 语料的困难:什么是语料?语料有什么作用?如何获得语料?
算机交际中的语言问题的一门学科,是人工智能领域的主要内容
NLP要研究语言能力和语言应用的模型,建立计算(算法)框架来实现这样的语言模 型,并完善之,评测之,最终用于设计各种实用系统 计算语言学(computational linguistics)
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
到t的一条路径。
在根树中,自上而下的路径末端结点称为树的叶结点,介于根节点与叶结点之间的结点 称为中间结点(或称内结点)。
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
28
形式语言基础:字符串
假定∑是字符的有限集合,一般称作字符表,它的每一个元素称为字符。由∑ 中字符相连而成的有限序列称为∑上的字符串。特殊地,不包括任何字符的 字符串称为空串,记作ε 。包括空串在内的∑上字符串的全体记为∑*。 字符串的连接:假定∑是字符的有限集合,x,y 是∑上的符号串,则把 y 的
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
25
连通图
连通图:连通图是一个无向图G=(N,E)或有向图D=(N,E),对于N中的任意两 个顶点ns和nt,存在一个顶点的序列P,使得ns=ni0 ,ni1 ,…,nik=nt均属于N, 且ej=(nij , ni(j+1)) (j=0,1,…,k-1)均属于E(对于有向图D,任意ej=(nij, ni(j+1)) (j=0,1,…,k-1)均属于E)。P也被称为图G或D的一条路径或者通路
12
IBM Watson
/smarterplanet/us/en/ibmwatson/
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
13
研究模式
自然语言场景问题 数学算法 算法如何应用到解决问题中 语料训练
相关实际应用
NLP技术发展阶段
以语言学为主要基础的时代(过去):建立基本语言规则使用数理逻辑进行推理,建 立模型产生或理解语言 以统计方法为主流的时代(现在):当数据量积累到海量,本身就能析取出规则,孕 育出智能。业务知识相对不重要。IBM实验室的贡献。“每当我炒掉一位语言学家,我 的识别率就又前进一个点” 深度学习等人工智能最新技术在NLP领域中的应用(将来)
机器读心术之文本挖掘与自然语言处理 第1周
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教
学资料,所有资料只能在课程内使用,不得在课
程以外范围散播,违者将可能被追究法律和经济 责任。 课程详情访问炼数成金培训网站
17
其它资源
见宗ห้องสมุดไป่ตู้庆书第四章
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
18
课程目标
NLP是庞大的领域,涉及语言学业务背景,复杂的算法,语料收集,软件等,不能指 望毕其功于一役 本课程属于算法理论课,主要给大家讲解常用于NLP领域的算法,模型,以及各种应 用场景的解决方法。基于某种软件的实操,需要有语料库的配合,炼数成金准备另外 单独成课,整个系列大约有5-8门课左右。力争办成全国领先的拳头课程 学习者基础,有一定的数学素养,有理解复杂算法的能力,最好具备炼数成金《机器 学习》课程的知识或同等能力 学习完本课程后,可以理解NLP领域的方法和工作,为以后学习其它NLP课程,以及自
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
日常应用场景
文档自动归类
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
10
评论自动分析
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
11
机器翻译
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
DATAGURU专业数据分析社区 机器读心术之自然语言处理 讲师 黄志洪
关注炼数成金企业微信