当前位置:文档之家› 文本挖掘

文本挖掘

文本挖掘简述摘要:文本挖掘是数据挖掘的一个重要分支, 其应用前景十分广泛。

本文对文本挖掘的基本概念和主要内容进行介绍, 并且说明了挖掘的过程以及它的应用领域和它与其他相关领域的关系。

关键词: 文本挖掘; 数据挖掘; 文本分类目前随着信息技术的快速发展, 特别是网络的普及, 以文本形式表示的信息越来越多, 如何在纷繁芜杂的信息海洋中找到自己需要的有用信息, 具有广泛的应用背景和实用价值。

文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术, 已经成为近年来的研究热点, 研究人员对文本挖掘技术进行了大量的研究, 但这些研究大部分是在英文环境下进行的, 对中文的研究却很少。

以下介绍了文本挖掘的主要内容, 挖掘过程以及与其它领域关系。

1. 文本挖掘概述( 1) 定义文本挖掘的定义: 文本挖掘是指从大量文本的集合C 中发现隐含的模式P。

如果将C 看作输入, 将P 看作输出, 那么文本挖掘的过程就是从输入到输出的一个映射N: Cy P。

( 2) 包括的内容1. 文本分类:文本分类指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。

这样用户不但能够方便地浏览文档, 而且可以通过限制搜索范围来使查询文档更容易、快捷。

目前, 用于英文文本分类的分类方法较多, 用于中文文本分类的方法较少, 主要有朴素贝叶斯分类, 向量空间模型以及线性最小二乘LLSF。

2.文本聚类文本分类是将文档归入到己经存在的类中, 文本聚类的目标和文本分类是一样的, 只是实现的方法不同。

文本聚类是无教师的机器学习, 聚类没有预先定义好的主题类别, 它的目标是将文档集合分成若干个簇, 要求同一簇内文档内容的相似度尽可能大, 而不同簇间的相似度尽可能小。

Hearst 等人的研究已经证明了/ 聚类假设0 , 即与用户查询相关的文档通常会聚类得比较靠近, 而远离与用户查询不相关的文档。

目前, 有多种文本聚类算法, 大致可以分为两种类型: 以G) HAC 等算法为代表的层次凝聚法和以K. means 等算法为代表的平面划分法。

3. 文本结构分析:为文本结构进行分析是为了更好地理解文本的主题思想, 了解文本所表达的内容以及采用的方式。

最终结果是建立文本的逻辑结构, 即文本结构树, 根结点是文本主题, 依次为层次和段落。

4.Web 文本数据挖掘:在Web 迅猛发展的同时, 不能忽视“信息爆炸”的问题, 即信息极大丰富而知识相对匮乏。

据估计,web 已经发展成为拥有3 亿个页面的分布式信息空间。

在这些大量、异质的Web 信息资源中, 蕴含着具有巨大潜在价值的知识。

这样就需要一种工具使人们能够从Web 上快速、有效的发现资源和知识。

2. 文本挖掘过程( 1) 特征表示及预处理文本特征指的是有关文本的元数据, 分为描述性特征,例如文本的名称、日期、大小、类型等, 以及语义性特征, 例如文本的作者、机构、标题、内容等。

对于内容这个难以表示的特征, 要找到一种能够被计算机所处理的表示方法。

矢量空间模型( VSM) 是近年来应用较多的并且效果较好的方法之一。

在该模型中, 文档空间被看作由一组正交词条矢量所组成的矢量空间, 每个文档表示为其中的一个规范化特征矢量V( d) = ( t1 ,w1 ( d) ; ,ti , wi( d) ; ,; tn, wn ( d) ) , 其中ti 为词条项, wi ( d) 为ti 在d 中的权值。

可以将文档d 中出现的所有单词作为ti , 也可以要求ti 是文档d 中出现的短语, 从而提高内容特征表示的准确性。

wi( d)一般被定义为ti 在d 中的出现频率tfi( d) 的函数, 即wi ( d) = ( tfi( d) ) 。

常用的( 有布尔函数、平方根函数、TFIDF 函数、对数函数等。

预处理的过程首先排除出现频率高但是含义虚泛的词语, 例如英文中的a, the, each, for, 汉语中的/ 地、得、的、这、虽然等; 然后排除那些在文档集合中出现频率很低的单字; 在英文中还可以去前缀找词根, 如worker,working, worked 都可以表示同一个词work。

( 2) 特征集约简一个有效的特征集直观上说必须具备以下两个特点: ¹完全性: 确实体现目标文档的内容;区分性: 能将目标文档特征集约减的目的是为了提高程序效率和运行速度, 并且防止过拟合( Overfit) 。

数万维的特征对文本分类的意义是不同的, 一些通用的、各个类别都普遍存在的特征对分类的贡献不大, 在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。

对每一类, 去除对分类贡献小的特征, 筛选出针对反映该类的特征集合。

用向量空间法表示文档时, 文本特征向量的维数往往达到数十万维, 即使经过删除停用词表中的停用词以及应ZIP法则删除低频词, 仍会有数万维特征留下。

最后一般只选择一定数目的最佳特征来开展各种文本挖掘工作, 所以进一步对特征进行约减就显得异常重要。

通常, 特征子集的提取是通过构造一个特征评估函数,对特征集中的每个特征进行评估, 每个特征获得一个评估分数, 然后对所有的特征按照分数大小进行排序, 选取预定数目的最佳特征作为特征子集。

文本特征选择中的评估函数是从信息论中延伸出来的, 用于给各个特征词条打分, 很好地反映了词条与各类之间的相关程度。

常用的评估函数有文档频数、信息增益、期望交叉熵、互信息、x2 统计、单词权、文本证据权和几率比等。

( 3) 文本挖掘方法文本分类算法主要包括以下几个分类模型: 相似度模型、组合模型、线形模型、非线形模型、概率模型。

在相似度模型中, 方法有计算文档与代表某一文档类别的中心向量之间的相似度( dk , ci) , 类别中心向量是根据测试文本统计计算的估计值。

另一种方法不需建立描述文档类别的中心向量, 而是依赖于测试文档与训练文档之间的相似度,K 邻近算法是这个模型的典型算法, 它的主要思想是计算找到训练集与测试文本距离最近的k 个文本。

线形模型有线形最小二乘拟合方法和支持向量机。

非线形模型包括层次模型和网络模型。

层次模型的典型算法是决策树, 该算法以自顶向下递归的方式构造一树型结构, 从具有最优信息增益的属性开始, 对测试树型的每个已知值创建一个分支,直到需要分类的样本测试完所有的树型。

网络模型的主要算法是神经网络方法。

概率模型中典型算法是朴素贝叶斯算法。

它的主要思想是基于贝叶斯假设, 即文档中的词汇在确定文本类别的作用上相互独立。

它首先计算特征词属于每个类别的先验概率, 在新文本到达时, 根据特征词的先验概率计算该文本属于每一个类别的后验概率, 最后取后验概率最大的类别作为分类结果。

3. 文本挖掘应用的领域文本挖掘作为数据挖掘中一个日益流行而重要的研究课题应用前景广泛, 主要有网络浏览、文本检索、文本分类、文档总结等。

( 1) 网络浏览领域:文本挖掘技术可以通过分析用户的网络行为等, 帮助用户更好地寻找有用信息, 一个典型的例子是CMU 的WebWatcher。

这是一个在线用户向导, 可以根据用户的实际点击行为分析用户的兴趣, 预测用户将要选择的链接, 从而为用户进行导航。

( 2) 文本检索领域: 文本检索主要研究对整个文档文本信息的表示、存储组织和访问, 即根据用户的检索要求, 从数据库中检索出相关的信息资料。

这种检索方法有三种: 布尔模型, 如清华大学的5中国学术期刊( 光盘版)6 ; 概率模型, 如美国马萨诸塞大学开发的INQRERY 文本检索系统; 向量空间, 如美国康乃尔大学基于向量空间模型开发了SMART 文本检索系统。

( 3) 文本自动分类:文本分类是指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。

这样用户不仅可以方便地阅读文档, 而且可以通过限制搜索范围来使文档查找更容易。

( 4) 文档总结:文档总结也是Web 文本挖掘的一个重要内容。

它是指从文档中抽取关键信息, 用简洁的形式, 对文档内容进行摘要和解释, 这样用户不需阅读全文就可了解文档或文档集合的总体内容。

搜索引擎向用户返回查询结果时, 通常给出文档摘要, 这就是文档总结的一个实例。

( 5) 信息表现: 信息挖掘技术关系的是信息的方方面面,力求从多角度表现信息的本质和特征。

文本挖掘技术能动态地、实时在线地表现信息的相关属性, 使用户及时发现信息, 更新信息和发现信息的演变方向。

( 6) 信息智能代理:主要为在分布式信息网络环境下的信息的查询服务。

信息智能代理使用户可以不知道所要检索信息的具体形式, 存储于何处、何种介质中, 只要用户提出查找要求, 文本挖掘技术会自动地把各种信息源中各种形式的相关信息检索出来, 使用户可以迅速获得较为满意的检索结果。

4. 文本挖掘与其他领域关系( 1) 文本挖掘与信息检索信息检索的目的是帮助用户寻找满足他们需求的信息,用户用一组关键词来表达检索意图,系统返回给用户一组包含这些关键词的文档。

在信息检索中没有/ 产生0 新的信息,而文本挖掘的目的是从文本数据中发现和产生新的知识。

它将文本集合看作是知识库, 而不是简单地看作是多个文本的集合。

它检查文本集合中的每一个文本, 抽取文本信息,然后提出关于新知识的假设, 并验证它。

文本挖掘提供给用户的是以某种形式( 可视化图表、子句等) 表示的关系、模式、规则、趋势等知识, 而不是文档本身。

这些知识通常没有包含在任何一个单独的文档中, 而是隐藏在多个文本中的、新的、以前不为人所知的、也是用户事先无法预料的。

文本挖掘与信息检索也是有联系的, 在文本挖掘中往往通过检索工具来收集文本数据, 而文本挖掘技术可以提高检索工具的效率, 如文本聚类技术可以改善索引数据库、术语关联的产生可以帮助实现查询扩展等。

( 2) 文本挖掘与信息抽取信息抽取的研究目标是从文本中抽取出一些特定的令人感兴趣的信息, 一般来说, 抽取出来的信息被填充到一个预先定义好的带有若干个属性槽的模板中。

信息抽取过程中抽取出的信息往往是文本中的片段, 没有产生新的信息。

另外信息抽取之前必须由用户预先定义好模板, 用户的信息需求是明确的。

通常, 信息抽取针对的是一组类似文本, 这样才能保证信息抽取的效率。

而文本挖掘是从大规模的文本集合( 可能由各种形式的异质文本组成) 中发现新的、用户事先未知的知识。

信息抽取是文本挖掘的重要步骤, 在进行挖掘( 发现知识) 之前, 必须从文本数据中抽取出结构化的文本信息。

相关主题