当前位置:文档之家› 文本特征提取以及分类结果分析

文本特征提取以及分类结果分析

文本特征提取以及分类结果分析 一、 目标: 提取文本中的关键信息,用于文本的自动分类。 二、 要求: a) 编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文本特征词集。 b) 编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。 c) 编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和找回率(Recall),以及综合指标(F-Measure=…)。

三、 文本特征提取原理 文本特征提取是进行文本分类训练和识别的基础。其基本思路是基于向量空间面向(VSM――Vector Space Modal),即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征(数字化的特征)。而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。 由上面的简介可知,这里有两个方面的问题:(1)如何定义“关键词集”(或称为“特征词集”);(2)如何就是某个关键词在一篇文本中的权重。

1. 提取关键词集 首先,我们提取关键词的最终目的是为了对文本进行分类。一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此,关键词集是与分类目标相关的。从上面的例子可以想象,在提取关键词集中有两个步骤: d) 筛选关键词的各种方法 根据词汇与预定义分类文本的相关程度来筛选关键词。使用一个训练文档集(其中各文档的分类已经由人工指定),通过计算其中词汇与文档分类的相关程度,选择相关程度高的词汇作为表达文档特征的关键词。 词汇与文档分类相关度的计算有多种方式。 1) 词频(TF-Term Frequency): 该思路很简单:如果词汇w在Ci类文本中出现的频率很高,就用它作为一个关键词: (|)(,)('|)iiiCountwCtfwCCountwC

其中,(|)iCountwC表示在Ci类文档中w出现的总次数;('|)iCountwC表示Ci类文档中的总词汇数。 计算Ci类文档中各词汇的词汇频率后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 2) 文档频率(DF-Document Frequency)。 文档频率是指在Ci类文档中,出现词汇w的文档的比例。该比例越高,则所有w对Ci的特征表达可能越重要,所以可以以此作为筛选关键词的条件。

(,)(,)iicountwCiDFwCC,

其中iC是属于类iC的文档总数,(,)icountwC是在属于类iC的文档范围内出现w的文档数量。 计算Ci类文档中各词汇的文档频率后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 3) TF-IDF(词频-反向文档频率): 可以看出,上述两种方法各有其道理,但都失之偏颇。 注意,这里的反向文档频率与2)中的文档频率是不同的概念。这里的文档频率是指词汇w在整个文档集中的文档频率,而2)中是指在类Ci子集中的文档频率。因而这里的文档频率的计算为:

(,)winDFwCN

其中,wn是包含w的文档总数,N是总文档数。 词汇w的TF-IDF计算方法为: (,)(,)log1/(,) (,)log/iiiiwTFIDFwCtfwCDFwCtfwCNn

 计算Ci类文档中各词汇的TFIDF后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 4) 互信息(MI-Mutual Information): 互信息指标是用于表示两个特征共同出现的程度。在这里,如何词汇W和类C总是共同出现,那么它们的互信息度高,W就是C类文档的一个特征词。 (,)(,)log()()(|) log()iiiiiPwCMIwCPwPCPCwPC







(1)

其中,()Pw是在整个训练集中,出现词汇w的文档的概率(用频率代替);()iPC是在训练集中,属于类iC的文档的概率;(,)iPwC表示在训练集中既出现

w又属于类iC的文档的概率。 此外,w与Ci的互信息度高,并不说明w与另一个类Cj的互信息度就一定低。为了更好地区分两个类,我们应该选择仅与一个类的互信息度高的词汇。这种表达是很理想化的。实际上我们可以选择哪些与不同类的互信息度差距较大的词汇作为关键词。表示这一特征的方法是求词汇w的互信息度的均方差:

21()(,)()miavgiwMIwCMIw (2)

其中,()avgMIw为w的平均互信息度,其公式为:

1()()(,)mavgiiiMIwPCMIwC 互信息的一个缺点是没有考虑w在某类文档中的词汇频率,因而稀有词汇常常可以有很大的权重。文章《基于改进的互信息特征选择的文本分类》中提出的方法是:

(,)(,)log(,)()()iiiiPwCMIwCTFwCPwPC

 (3)

其中, (,)iTFwC是词汇w的词频在Ci类文章中的词汇频率: (|)(,)()iicountwCTFwCcountw

其中,count(w)是w在所有文章中出现的词汇数,count(w|Ci)是w在Ci类文章中出现的词汇数。 我们在实验中可以比较以上三种指标的分类效果。 计算各词汇与Ci类的互信息度后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 5) χ2统计量: 互信息的关键是考虑词汇与类的同现概率。而χ2统计希望考虑得根据全面:综合考虑词汇w与类C关系的四种情况。假设我们用W表示出现词汇w的文档,

W表示不出现w的文档,C表示属于类C的文档,C表示不属于类C的文档,

那么它们之间的组合有:(,),(,),(,),,(,)WCWCWCWC。如:(,)WC表示既不出现w又不属于C的文档。假设以上四种情况的文档子集中包含的文档数分布为下表:

C C

W 11

n

12n 1112nn W 21n 22

n

2122nn

 1121nn 1222nn

则,w与Ci的2x为: 2211221221

1112212211211222

()(,)()()()()innnnxwCnnnnnnnn



计算各词汇与Ci类的χ2统计量后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 6) 信息增益(IG-Information Gain): 信息增益又称为熵增益。熵是热力学中的一个概念,用于表达一个封闭系统中的混乱程度。系统越混乱,熵越大。自然规律中(热力学第二定律),系统中的熵在没有外部干涉的情况下总是不变或增大,称为“熵增定律”。我们作文本分类却是反过来,要使系统中的熵减小(变得有秩序)。这里,系统是指一个文本集,有秩序是指其中的分类是否清晰。 在信息论中,一个系统的熵用来表示某一类信息的不同数据在系统中分布的均匀程度。如在文本分类中,属于不同类别的文本在文本集中分布的越均匀,系统越混乱,熵越大。 在提取特征词中,我们希望当取w为特征词,并根据是否包含w将整个文本集分为两个子集后,各类文本在两个子集内部分布的非常不均匀。理想的情况是,正好一个子集包含一个类。这一两个子集内部的熵就非常小,而整个系统的熵是两个子集熵的和,因而也会变小。这样,根据w划分子集后,系统就产生了一个熵增益(实际上是熵减)。通过比较不同词汇对系统产生的熵增,选择哪些熵增很大的词汇作为关键词。 使用w划分子集前,整个系统的熵(Entropy)为:

1()log1/()miiiEPCPC

其中,()iPC为文本集中Ci类文本出现的概率(频率)。 划分后,系统的熵为: 11(|)log1/(|)(|)log1/(|)mmwiiiiiiEPCwPCwPCwPCw

其中,(|)iPCw是在包含词汇w的文本子集中Ci类文本出现的概率;(|)iPCw则是在不包含词汇w的文本子集中Ci类文本出现的概率。

根据以上两个公式,使用w作为关键词的熵增为: wwGEE

计算各词汇的熵增后,设定一个阀值,选择大于该阀值的词汇作为关键词。 7) 期望交叉熵(ECE-Expected Cross Entropy): 交叉熵反映了文本类别的概率分布和在出现了某个特定词汇的条件下文本类

相关主题