当前位置:文档之家› 文本挖掘主要技术研究

文本挖掘主要技术研究

文本挖掘主要技术研究摘要:Web技术的发展日新月异,与此同时,因特网上的文本信息愈积愈多,浩如烟海。

如何从这些海量文本数据挖掘出潜在的、有价值的信息,已经成为越来越多人的研究重点。

本文主要介绍了文本挖掘的基本方法,包括文本特征提取、特征子集选取、文本分类、文本聚类等,并对这些方法的改进进行了分析。

在此基础上,介绍了文本挖掘在当今一些领域的应用。

关键词:文本挖掘特征提取特征子集选取文本分类文本聚类应用Research of Major Technologies in Text Mining 【Abstract】With the rapid development of Web technology, text information on the Internet has a tremendous growth. How to dig out the potential and valuable information from the text information on the Internet has become the focus of many people's research. This paper describes the basic methods of text mining, including text feature extraction, feature subset selection, text categorization, text clustering, etc., it makes some analysis on how to improve some of these methods. In addition, it introduces the application in some fields with text mining technology.【Key words】text mining, feature extraction, feature subset selection, text categorization, text clustering, application1、文本挖掘概述文本挖掘[1]( Text Mining,TM),又称为文本数据挖掘(Text Data Mining,TDM) 或文本知识发现( Knowledge Discovery in Texts , KDT) , 是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程[2]。

它的主要用途是从原本未经使用的文本中提取出未知的知识。

但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术[3]。

本文主要从文本挖掘的特征提取、文本分类、聚类等方面对文本挖掘技术进行全面的分析。

2、文本特征提取与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。

即使具有一些结构,也是着重于格式,而非文档内容。

不同类型文档的结构也不一致。

此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。

文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。

我们需要对文本进行预处理,抽取代表其特征的元数据。

这些特征可以用结构化的形式保存,作为文档的中间表示形式。

文本特征指的是关于文本的元数据,分为描述性特征,例如文本的名称、日期、大小、类型等; 以及语义性特征,例如文本的作者、机构、标题、内容等。

描述性特征易于获得,而语义性特征则较难得到。

W3C近来制定的XML[4]、RDF[5]等规范提供了对Web文档资源进行描述的语言和框架。

在此基础上,我们可以从半结构化的Web文档中抽取作者、机构等特征。

特征表示[ 6]是指以一定的特征项( 如词条或描述)来代表文档信息, 特征表示模型有多种, 常用的有布尔逻辑型、向量空间型、概率型等。

近年来应用较多且效果较好的特征表示法是向量空间模型( Vector Space Model, VSM) 法[7]。

在VSM 中, 将每个文本文档d 看成是一组词条( T 1, T 2, ,, T n) 构成, 对于每一词条Ti,都根据其在文档d中的重要程度赋予一定的权值Wi,可以将其看成一个n维坐标系,W1,W2…Wn 为对应的坐标值, 因此每一篇文档都可以映射为由一组词条矢量张成的向量空间中的一点,对于所有待挖掘的文档都用词条特征矢量( T 1,W1( d) , T 2, W2( d ) …T n, Wn( d) ) 表示。

这种向量空间模型的表示方法,可以将d中出现的所有单词作为Ti,也可以将d中出现的所有短语作为Ti,从而提高特征表示的准确性。

Wi ( d )一般被定义为Ti在d中出现率tfi ( d) 的函数,常用的有布尔函数,平方根函数,对数函数,TFIDF函数等。

3、文本特征子集选取构成文本的词汇数量是相当大的,因此表示文本的向量空间的维数也相当大,可以达到几万维,因此需要进行维数压缩的工作。

目前对WWW 文档特征所采用的特征子集[8]选取算法一般是构造一个评价函数,对特征集中的每一个特征进行独立的评估,这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。

一般用的评估函数[9]有几率比( Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expect ed CrossEntropy) 、互信息( Mutual Information) 、词频( Word Frequency) 等,限于篇幅,本文并不详细介绍。

4、文本分类分类[10](Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。

分类是事先定义好类别,类别数不变。

分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。

本文介绍了常用的分类算法,其中对朴素贝叶斯和KNN算法进行了详细的介绍。

4.1朴素贝叶斯贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,公式如下:)()()|()|(A P B P B A P A B P =图1 朴素贝叶斯分类流程图它可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率,分类时根据预测结果将该样本分到概率最高的类别中去即可。

朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程,从理论上,讲贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。

朴素贝叶斯分类的正式定义如下: 1、设},...,,{21m a a a x =为一个待分类项,而每个a 为x 的一个特征属性。

2、有类别集合},...,,{21n y y y C =。

3、计算)|(),...,|(),|(21x y P x y P x y P n 。

4、如果)}|(),...,|(),|(max{)|(21x y P x y P x y P x y P n k =,则k y x ∈。

朴素贝叶斯分类器(native Bayes)假设特征对于给定类的影响独立于其它特征,即特征独立性假设。

对文本分类来说,它假设各个单词 Wi 和Wj 之间两两独立。

设训练样本集分为 k 类,记为 C ={C1,C2,…, Ck},则每个类 Ci 的先验概率为 P(Ci), i =1 ,2,…, k ,其值为 Ci 类的样本数除以训练集总样本数 n 。

对于新样本 d ,其属于 Ci 类的条件概率是)|(d C P i 。

根据贝叶斯定理, Ci 类的后验概率为 )|(d C P i ;)()()|()|(d P C P C d P d C P i i i =(1)P(d)对于所有类均为常数,可以忽略, 则式(1)简化为:)()|()|(i i i C P C d P d C P ∝ (2)为避免 P(Ci)等于 0 ,采用拉普阿斯概率估计:||||||1)(c i i D C Dc C P ++=(3)式中 : C 为训练集中类的数目,DCi 为训练集中属于类 Ci 的文档数,DC 为训练集包含的总文档数。

在特殊情况下,训练样本集中各类样本数相等 ,此时类的先验概率相等 ,式(2)可以简化:)|()|(i i C d P d C P ∝ (4)朴素贝叶斯分类器将未知样本归于类i 的依据如下 :.,...,2,1)},()|(max{arg )|(k j C P d C P d C P j j i == (5)文档 d 由其包含的特征词表示, 即 d =(w1,…,wj ,…,w m),m 是d 的特征词个数 d ,wj 是第j 个特征词,由特征独立性假设 ,则得∏===mji j i m i C P C P d C P 121)|()|),...,,(()|(ωωωω(6)式中: )|(i j C P ω表示分类器预测单词 wj 在类 Ci 的文档中发生的概率 。

因此式(2)可转换为∏=∝||1)|()(()|(d j i j i i C P C P d C P ω(7)为避免式(7)中)|(i j C P ω等于0,可以采用拉普拉斯概率估计。

有两种方法计算)|(i j C P ω, 即文档型计算公式和词频型计算公式。

(1)文档型:不考虑单词在文档中的出现频次,仅考虑单词在文档中是否出现,0 表示未出现,1 表示出现,依式(8)计算:||2)|)((1)|(c i j i j D C w doc N C w P ++=(8)式中 : )|)((i j C w doc N 为 Ci 类文本中出现特征wj 的文本数 。

(2)词频型:考虑单词在文档中出现的频次,依式(9)计算:∑=++=||1),(||),(1)|(v k i k i j i j C w TF V C w TF C w P(9)式中: V 表示特征词表中总单词数, TF(wj ,Ci)表示单词 wj 在类Ci 的所有文档中出现的频次之和。

[11]4.2 K 近邻分类K-nearest neighbor图2 KNN 决策过程图KNN 分类算法的主要思想是:先计算待分类样本与已知类别的训练样本之间的距离或相似度 ,找到距离或相似度与待分类样本PKNN 算法流程(1)读入训练样本Yi(i = 1,2,…,n):由式(3)求出训练样本的中心M。

(2)根据式(1)计算各训练样本点与中心点M的欧氏距离,可得距离M的最远点Ymax。

相关主题