当前位置:文档之家› 文本特征提取以及分类结果分析

文本特征提取以及分类结果分析

文本特征提取以及分类结果分析一、目标:提取文本中的关键信息,用于文本的自动分类。

二、要求:a)编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文本特征词集。

b)编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征向量。

为其它设计分类器的同学提供训练文档和测试文档的特征向量集。

c)编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和找回率(Recall),以及综合指标(F-Measure=…)。

三、文本特征提取原理文本特征提取是进行文本分类训练和识别的基础。

其基本思路是基于向量空间面向(VSM――V ector Space Modal),即把一篇文本视为N为空间中的一个点。

点的各维数据表示该文档的一个特征(数字化的特征)。

而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。

由上面的简介可知,这里有两个方面的问题:(1)如何定义“关键词集”(或称为“特征词集”);(2)如何就是某个关键词在一篇文本中的权重。

1.提取关键词集首先,我们提取关键词的最终目的是为了对文本进行分类。

一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。

因此,关键词集是与分类目标相关的。

从上面的例子可以想象,在提取关键词集中有两个步骤:d)筛选关键词的各种方法根据词汇与预定义分类文本的相关程度来筛选关键词。

使用一个训练文档集(其中各文档的分类已经由人工指定),通过计算其中词汇与文档分类的相关程度,选择相关程度高的词汇作为表达文档特征的关键词。

词汇与文档分类相关度的计算有多种方式。

1)词频(TF-T erm Frequency):该思路很简单:如果词汇w在Ci类文本中出现的频率很高,就用它作为一个关键词:(|)(,)('|)i i i C ount w C tf w C C ount w C =其中,(|)i C ount w C 表示在Ci 类文档中w 出现的总次数;('|)i C ount w C 表示Ci 类文档中的总词汇数。

计算Ci 类文档中各词汇的词汇频率后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。

将各类的关键词集合并后,形成整个系统的关键词集。

2) 文档频率(DF -Document Frequency )。

文档频率是指在Ci 类文档中,出现词汇w 的文档的比例。

该比例越高,则所有w 对Ci 的特征表达可能越重要,所以可以以此作为筛选关键词的条件。

(,)(,)i icount w C i D F w C C =,其中i C 是属于类i C 的文档总数,(,)i count w C 是在属于类i C 的文档范围内出现w 的文档数量。

计算Ci 类文档中各词汇的文档频率后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。

将各类的关键词集合并后,形成整个系统的关键词集。

3) TF-IDF (词频-反向文档频率):可以看出,上述两种方法各有其道理,但都失之偏颇。

注意,这里的反向文档频率与2)中的文档频率是不同的概念。

这里的文档频率是指词汇w 在整个文档集中的文档频率,而2)中是指在类Ci 子集中的文档频率。

因而这里的文档频率的计算为:(,)w i n D F w C N=其中,w n 是包含w 的文档总数,N 是总文档数。

词汇w 的TF-IDF 计算方法为:()()(,)(,)log 1/(,) (,)log /i i i i w TFID F w C tf w C D F w C tf w C N n =⨯=⨯计算Ci 类文档中各词汇的TFIDF 后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。

将各类的关键词集合并后,形成整个系统的关键词集。

4) 互信息(MI -Mutual Information ):互信息指标是用于表示两个特征共同出现的程度。

在这里,如何词汇W 和类C 总是共同出现,那么它们的互信息度高,W 就是C 类文档的一个特征词。

(,)(,)log ()()(|) log ()i i i i i P w C M I w C P w P C P C w P C ⎛⎫= ⎪⎝⎭⎛⎫= ⎪⎝⎭(1)其中,()P w 是在整个训练集中,出现词汇w 的文档的概率(用频率代替);()i P C 是在训练集中,属于类i C 的文档的概率;(,)i P w C 表示在训练集中既出现w 又属于类i C 的文档的概率。

此外,w 与Ci 的互信息度高,并不说明w 与另一个类Cj 的互信息度就一定低。

为了更好地区分两个类,我们应该选择仅与一个类的互信息度高的词汇。

这种表达是很理想化的。

实际上我们可以选择哪些与不同类的互信息度差距较大的词汇作为关键词。

表示这一特征的方法是求词汇w 的互信息度的均方差:()w σ=(2)其中,()avg M I w 为w 的平均互信息度,其公式为:1()()(,)mavg ii i M I w P CM I w C ==⨯∑互信息的一个缺点是没有考虑w 在某类文档中的词汇频率,因而稀有词汇常常可以有很大的权重。

文章《基于改进的互信息特征选择的文本分类》中提出的方法是:(,)(,)log (,)()()i i i i P w C M I w C TF w C P w P C ⎛⎫=⨯ ⎪⎝⎭(3)其中, (,)i TF w C 是词汇w 的词频在Ci 类文章中的词汇频率:(|)(,)()i i count w C TF w C count w =其中,count(w)是w 在所有文章中出现的词汇数,count (w|Ci )是w 在Ci 类文章中出现的词汇数。

我们在实验中可以比较以上三种指标的分类效果。

计算各词汇与Ci 类的互信息度后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。

将各类的关键词集合并后,形成整个系统的关键词集。

5) χ2统计量:互信息的关键是考虑词汇与类的同现概率。

而χ2统计希望考虑得根据全面:综合考虑词汇w 与类C 关系的四种情况。

假设我们用W 表示出现词汇w 的文档,W 表示不出现w 的文档,C 表示属于类C 的文档,C 表示不属于类C 的文档,那么它们之间的组合有:(,),(,),(,),,(,)W C W C W C W C 。

如:(,)W C 表示既不出现w 又不属于C 的文档。

假设以上四种情况的文档子集中包含的文档数分布为下表:则,w 与Ci 的2x 为:22112212211112212211211222()(,)()()()()i n n n n x w C n n n n n n n n ⨯-⨯=+⨯+⨯+⨯+计算各词汇与Ci 类的χ2统计量后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。

将各类的关键词集合并后,形成整个系统的关键词集。

6) 信息增益(IG -Information Gain ):信息增益又称为熵增益。

熵是热力学中的一个概念,用于表达一个封闭系统中的混乱程度。

系统越混乱,熵越大。

自然规律中(热力学第二定律),系统中的熵在没有外部干涉的情况下总是不变或增大,称为“熵增定律”。

我们作文本分类却是反过来,要使系统中的熵减小(变得有秩序)。

这里,系统是指一个文本集,有秩序是指其中的分类是否清晰。

在信息论中,一个系统的熵用来表示某一类信息的不同数据在系统中分布的均匀程度。

如在文本分类中,属于不同类别的文本在文本集中分布的越均匀,系统越混乱,熵越大。

在提取特征词中,我们希望当取w 为特征词,并根据是否包含w 将整个文本集分为两个子集后,各类文本在两个子集内部分布的非常不均匀。

理想的情况是,正好一个子集包含一个类。

这一两个子集内部的熵就非常小,而整个系统的熵是两个子集熵的和,因而也会变小。

这样,根据w 划分子集后,系统就产生了一个熵增益(实际上是熵减)。

通过比较不同词汇对系统产生的熵增,选择哪些熵增很大的词汇作为关键词。

使用w 划分子集前,整个系统的熵(Entropy )为:()1()log 1/()m i i i E P C P C ==∑其中,()i P C 为文本集中Ci 类文本出现的概率(频率)。

划分后,系统的熵为:()()11(|)log 1/(|)(|)log 1/(|)mm wi i i i i i EP C w P C w P C w P C w ===+∑∑其中,(|)i P C w 是在包含词汇w 的文本子集中Ci 类文本出现的概率;(|)i P C w 则是在不包含词汇w 的文本子集中Ci 类文本出现的概率。

根据以上两个公式,使用w 作为关键词的熵增为:wwGE E =-计算各词汇的熵增后,设定一个阀值,选择大于该阀值的词汇作为关键词。

7) 期望交叉熵(ECE -Expected Cross Entropy ):交叉熵反映了文本类别的概率分布和在出现了某个特定词汇的条件下文本类别的概率分布之间的距离。

名词W 的交叉熵越大,对文本类别分布的影响也越大。

计算为:1(|)()(|)log()mi i i i P C w C E w P C w P C ==-∑注意到,其中log 部分实际上就是w 与Ci 的互信息度。

计算各词汇的期望交叉熵后,设定一个阀值,选择大于该阀值的词汇作为关键词。

8) 文本证据权(The W eight of Evidence for T ext ):1(|)(1())()()()log ()(1(|))mi i i i i i P C w P C W ET w P w P C P C P C w =⎡⎤⨯-=⎢⎥⨯-⎣⎦∑计算各词汇的文本证据权后,设定一个阀值,选择大于该阀值的词汇作为关键词。

e) 排除停用词。

所谓停用词就是在各种文档中均经常出现的、不能反映文档内容特征的常用词,如:助词、语气词等(已有停用词表)。

上述方法中,一些方法已考虑到这种情况,因而不需要排除停用词。

这些方法包括TFIDF (其中的反向文档频率就已经考虑了停用词的情况),IG ,交叉熵和文本证据权。

应该其它方法时,必须排除停用词。

但实际上,排除停用词可以提高筛选关键词的效率。

我们可以在筛选关键词前,首先排除停用词。

即如何一个词是停用词,那么根本不考虑去计算它的相应指标。

这样可以缩小计算的范围,提高效率。

2. 文档编码――计算关键词在文档中的权重根据前面提取的一组关键词,表示为<K 1, K 2, …, K n >,我们需要将任意一篇文档转换为数字向量,如<q 1, q 2, …, q n >,其中:q i 是关键词K i 对于当前文档的权重――即重要性。

相关主题