当前位置:文档之家› 文本挖掘概述ppt课件

文本挖掘概述ppt课件

文本分ຫໍສະໝຸດ 等。为什么要进行文本分析?
把从文本中抽取出的特征词进行量化来表示文本 信息。将它们从一个无结构的原始文本转化为结 构化的计算机可以识别处理的信息,即对文本进 行科学的抽象,建立它的数学模型,用以描述和 代替文本。使计算机能够通过对这种模型的计算 和操作来实现对文本的识别。
三、文本挖掘的关键技术 文本预处理
提高了海量非结构化信息源的利用价值; 使得人们能够更加方便地从海量文本中发现隐含
的知识; 为企业的战略决策提供竞争情报的支持
文本挖掘的过程
相对于数据挖掘而言,文本挖掘技术还不成熟。 文本数量巨大,结构不统一,处于动态变化中; 自然语言理解理论在语言的深层理解方面没有根
本性的突破,致使文本处理的准确度不高,文本 挖掘的效果不够理想。
计算机理解语言的能力非常有限!
三、文本挖掘的关键技术
文本预处理 文本分类
文本的向量空间表示 文本特征提取 文本相似度
文本聚类 文本自动摘要
为什么要进行文本分析?
文本是以文字串形式表示的数据文件。 文本分析过程即通过文本分析,从中找出一些特
征以便将来使用。
文本分析包括语种识别、特征提取、文本聚类和
四、文本挖掘的关键技术特征提取
用于表示文本的基本单位通常称为文本的特征或特征项。 在中文文本中可以采用字、词或短语作为表示文本的特征
项。 特征提取主要是使用自动的提取过程,识别文本中词项的
意义。
特征提取对掌握该文本的内容很重要,是一种强有力的 文本挖掘工具。
在一篇文本中,标题是该文本的高度概括,文本中的特 征,如人命、地名、组织名等是文本中的主体信息。
标引源 数据库
停用词表
一条待标引的记录 英语单词
西文文本标引流程图
遇空分词
存储
剔除
去除重复关键词
词频统计,保留高频词
利用词表确定标引词或直接选择关键词
19
标引
抽取关键词的方法与过程 以西文文本为例
利用计算机抽取西文关键词,首先要建立一个以介词、冠 词、连词等无实质意义的单词组成的停用词表,然后利用 创建的停用词表,从被标引的文本中筛去停用词,抽取关 键词。
Det Noun Aux Verb Det Noun Prep Det
Noun
(词性标注)
Noun Phrase Complex Verb
Noun Phrase
Noun Phrase
语义分析 Dog(d1). Boy(b1). Playground(p1). Chasing(d1,b1,p1).
+
Scared(x) if Chasing(_,x,_).
第四节 文本挖掘概述
1
一、文本挖掘的定义
文本挖掘是数据挖掘的一个分支。 将文本型信息源作为分析对象,利用智能算法,
如神经网络、基于案例的推理等,并结合文字处 理技术,分析大量的非结构化文本源(如文档、 网页、企业管理日志等),从中寻找信息的结构、 模型、模式等各种隐含的知识。 文本挖掘就是利用计算机的高速度和海量处理能 力,来帮助人们处理文本信息。
四、文本挖掘的关键技术
利用计算机抽取西文关键词,首先要建立一个以 介词、冠词、连词等无实质意义的单词组成的停 用词表( stop words ),然后利用创建的停用词 表,从被标引的文本中筛去停用词,抽取关键词。
分词:英文分词
一般采用keyword,无需分词,单词之间有空格分开。 stop words:指文档中出现的连词,介词,冠词等并
无太大意义的词。例如在英文中常用的停用词有the, a, it等;在中文中常见的有“是”,“的”,“地” 等。 索引词(标引词,关键祠):可以用于指代文档内容 的预选词语,一般为名词或名词词组。
Natural Language Processing
A dog is chasing a boy on the playground 词汇分析
(1)从文本中取出一个单词:西文中每两个单词间有空 格间隔,可通过空格取词。
四、文本挖掘的关键技术 特征提取
特征是概念的外在表现形式,特征提取是识别潜 在概念结构的重要基础。
利用自动标引技术可以对文本进行特征标引。 对汉语文本进行特征抽取时,需要先对文本进行
分词处理。
分词实例
和平民主 和平、民主 和、平民、主
提高人民生活水平 提高、高人、人民、民生、生活、活水、水平
一、文本挖掘的定义
文本挖掘(text mining):是指抽取有效、新颖、 有用、可理解的、散布在文本文件中的有价值知 识,并且利用这些知识更好地组织信息的过程。
Text data mining 、knowledge discovery from textual databases
二、文本挖掘的作用
文本的向量空间表示
文本表示是指用文本的特征信息集合来代表原来 的文本。
目前,在信息处理领域,文本的表示方法主要是 采用向量空间模型(Vector Space Model, VSM)。
向量是既有大小又有方向的量。
三、文本挖掘的关键技术 文本预处理
向量空间模型的基本思想是以向量来表示文本: (W1,W2,W3……Wn),其中Wi 为第i个特 征项的权重。
特征项一般选用字、词或词组。因此要将文本表 示为向量空间中的一个向量,就首先将文本分词, 用这些词作为向量的维数来表示文本。
最初的向量表示完全是0、1的形式。但这种形式 无法体现词在文本中的作用程度,故0、1逐渐被 更精确的词频代替。
三、文本挖掘的关键技术语种识别
语种识别工具能自动发现文本使用的语种。这类 工具应用文本内容的一些线索来识别语种。通常 用机器领域里的算法,利用相应语种的训练文本 进行训练,最终实现识别的目的。
Scared(b1) 推理、推断
Verb Phrase
Prep Phrase
语法分析
Verb Phrase Sentence
A person saying this may be reminding another person to
get the dog back…
语用分析 (语言行为)
(Taken from ChengXiang Zhai, CS 397cxz – Fall 2003)
相关主题