当前位置:文档之家› 文本特征提取技术03

文本特征提取技术03


最容易实现,可扩展性好
非结构化数据分析 2018/10/6
文档频率



Baeza-Yates and Ribeiro-Neto(1990)研究表明,若 一个特征在语料集80%的文档中都出现了,它对于 分类来说是无意义的。这样的词语主要是指停用词 等,通过对这部分词语的压缩,可以使特征向量空 间压缩到原始的40%或者更多。 对于出现频率过低的词语,考虑到增加一个变量对 于现实带来的成本,一般不利用这样的词语,而是 尽可能少的选取其他词条。 Yang and Pedersen(1997)试验表明:在分类效果 没有变差的前提下将特征空间的维数约减为原来的 1/10是可能的,约减为1/100所带来的损失很小。
2018/10/6
低频词缺陷


只统计文档中是否出现词条T,却忽略了词条T 在文档中出现频率的信息,使得卡方检验对低 频词有所偏袒,这就夸大了低频词的作用。 如果某一特征只在一类文档中频繁出现,通过 卡方法计算出来的卡方统计量很低,在特征选 择时这种特征词就会被排除掉,但是这种在少 量文档中频繁出现的特征词很有可能对分类的 贡献很大,比如专指概念。


假设抓取了来自门户网站“经济”“娱乐”“科技” 三个版块各300篇文章,其中有一篇文章,共有100 个词,其中“粒子”“和”“应用”三个词分别出 现了 5次、35次和15次,我们想将该文档进行归类, 看它属于“经济”“娱乐”“科技”文档中的哪一 类。 初步分析认为,“粒子”、“应用”两个词应该对 文章分类的作用较大,而“和”对于文章的分析意 义不大。 更进一步的,如果目标是进行文档的归类, 有理由认为“粒子”一词对于该文章的归属的贡献 要高于“应用”。“应用”一词的专业性不及“粒 子”。
文档频率

基于DF的启发式要点
太频繁的词项没有区分度,
DF大于某个阈值去掉 太稀有的词项独立表达的类别信息不强 稀有词项的全局影响力不大 在训练集中,某些文档如果有某个稀有词项,它们 通常也会有一些常见词项(对那一类) 和通常信息获取观念有些抵触:稀有的更有代表性 (这是一种ad hoc方法,不依据什么理论)
非结构化数据分析
文本特征提取
2018/10/6
五校联合 大数据分析硕士培养
主要内容

文本表示 特征提取 特征权重
非结构化数据分析
2018/10/6
文本表示
第一讲:文本挖掘简介
非结构化数据分析 2018/10/6
文本表示及文本预处理

去掉html一些tag标记 停用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计(TFIDF) 数据清洗:去掉噪声文档或文档内垃圾数据非结构Biblioteka 数据分析2018/10/6
那么偏差为:
非结构化数据分析
2018/10/6
χ2 统计量
非结构化数据分析
2018/10/6
χ2 统计量

卡方度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D
非结构化数据分析
Pmj U mj Pmj U mj
Qmj Vmj Qmj Vmj
Pmj Qmj U mj Vmj
I
IG j m1 p(Cm ) log p(Cm ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j )

近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系
(Entities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的 读者可以参考后面所附的文献进行深入学习。
非结构化数据分析 2018/10/6
特征权重
非结构化数据分析
非结构化数据分析 2018/10/6
信息增益(Information Gain, IG)

该term为整个分类所能提供的信息量 特征项出现与否导致的熵的变化 考虑和不考虑特征的熵的差值
非结构化数据分析
2018/10/6
信息增益
特征选择 Tj 出现在文档中 Tj未出现在文档 总数 文档属于 Cm类 文档不属于 Cm类 总数

Eliminates noise features Avoids overfitting
非结构化数据分析 2018/10/6
特征提取思路
特征选择(Feature
Selection)
文档频率 信息增益 卡方统计量 互信息
特征重构(Re-parameterisation)
M M M
IG j m1
M
Pmj U mj I
M m 1
log
Pmj U mj I log U mj

P 1 j U1 j I

M m 1
Pmj Pmj Qmj
log
Pmj Pmj Qmj

V1 j U1 j I

U mj U mj Vmj
U mj Vmj
程度。
非结构化数据分析
2018/10/6
VSM示意图—数据结构化一般思路
特征词1 文档1 文档2 文档3 文档4 权重11 权重21 权重31 权重41 特征词2 权重12 权重22 权重32 权重42 特征词3 权重13 权重23 权重33 权重43 …… …… …… …… …… 特征词n 权重1n 权重2n 权重3n 权重4n
非结构化数据分析 2018/10/6
信息增益



信息量与变量可能的变化有关,跟变量具体的取值 没有任何关系,只和变量所取的种类多少以及发生 概率有关),种类和发生概率决定了信息量的大小。 Quinlan提到了这一点,信息增益的方法总是倾向 于选择有多种属性的特征。 只能考察特征对整个系统的贡献,而不能具体到某 个类别上,这就使得它只适合用来做所谓“全局”的 特征选择(指所有的类都使用相同的特征集合), 而无法做“局部”的特征选择(每个类别有自己的特 征集合,因为有的词,对这个类别很有区分度,对 另一个类别则无足轻重)。
非结构化数据分析 2018/10/6
χ2 统计量

基本思想
通过观察实际值与理论值的偏差来确定理论的正确与 否。假设两个变量确实是独立的,然后观察实际值与 理论值的偏差程度。 如果偏差足够小,认为误差是很自然的样本误差, 两者确实独立; 如果偏差大到一定程度,使得这样的误差不太可 能是偶然产生或者测量不精确所致,认为两者相 关。
潜在语义分析
非结构化数据分析
2018/10/6
文档频率(Document Frequency,DF)

文档频率(DF)指文本数据中包含某个词条的文档的个数。 通过文档频率进行特征选择就是按照文档频率的大小对词
条进行排序,将文档频率小于某一阈值的词删除,从而降
低特征空间的维数。
非结构化数据分析
2018/10/6

比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可 以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间
没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方
法的关键。该方法比较常用。
非结构化数据分析
2018/10/6
文本表示注解
……
文档m
……
权重m1
……
权重m2
……
权重m3
……
……
……
权重mn
非结构化数据分析
2018/10/6
VSM示意图

相似度比较
内积计算
Cosine计算
非结构化数据分析
2018/10/6
文本表示注解
非结构化数据分析
2018/10/6
文本表示注解

用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字 在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文 本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单 个汉字表示方法往往无法很好的代表语义信息。
非结构化数据分析
2018/10/6
互信息法(Mutual Information, MI)

MI越大,特征项t和c共现程度越大 (N=A+B+C+D)
非结构化数据分析
2018/10/6
互信息特点

MI(t,C)的值越大,t对于C的区分能力越强 对同一个类,不同的词项,在同样P(t|C)情况下, ������ 相对稀有的 t 会得到较大的值,即MI受到词条边 际概率的影响,从下面的公式中可得:

词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机来 自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常 和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。

词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。 且词组的形式提高了特征向量的语义含量,使得向量更稀疏。
特征提取的意义

文本集合包含的特征太多

10,000 – 1,000,000 unique words … and more 有些分类方法无法处理1,000,000以上的特征 有些分类方法的训练时间与特征个数的平方成正比,或更糟
相关主题