当前位置:文档之家› 文本特征提取技术PPT课件

文本特征提取技术PPT课件

Eliminates noise features Avoids overfitting
特征提取的意义
文本集合包含的特征太多
10,000 – 1,000,000 unique words … and more
特征减少后,某些算法才能使用
有些分类方法无法处理1,000,000以上的特征
减少训练时间
有些分类方法的训练时间与特征个数的平方成正比,或更糟
使预测模型更快、更小 能提升总体性能
假设抓取了来自门户网站“经济”“娱乐”“科技” 三个版块各300篇文章,其中有一篇文章,共有 100个词,其中“粒子”“和”“应用”三个词分 别出现了 5次、35次和15次,我们想将该文档进行 归类,看它属于“经济”“娱乐”“科技”文档中 的哪一类。
初步分析认为,“粒子”、“应用”两个词应该对 文章分类的作用较大,而“和”对于文章的分析意 义不大。 更进一步的,如果目标是进行文档的归类, 有理由认为“粒子”一词对于该文章的归属的贡献 要高于“应用”。“应用”一词的专业性不及“粒 子”。
Ld (w)G(w)Nd
Ld (w) 是词语w在文档d中的局部权重。G(w) 是词语w在文档集合中的全局 权重N,d 是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计
量,而全局加权则使用整个数据集中的统计量进行计算。
非结构化数据分析 2019/7/4
特征提取
非结构化数据分析 2019/7/4
内积计算
Cosine计算
非结构化数据分析 2019/7/4
文本表示注解
非结构化数据分析 2019/7/4
文本表示注解
用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字 在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文 本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单 个汉字表示方法往往无法很好的代表语义信息。
非结构化数据分析
文本特征提取
2019/7/4
五校联合 大数据分析硕士培养
主要内容
文本表示 特征提取 特征权重
非结构化数据分析 2019/7/4
文本表示
第一讲:文本挖掘简介
非结构化数据分析 2019/7/4
文本表示及文本预处理
去掉html一些tag标记 停用词(stop words)去除、词根还原
文档(Document):句子、段落、整篇文章 特征项(Term/Feature):词根/词/短语/其他 项的权重(Weight):每个特征项在文档中的重
要程度。
非据结构化一般思路
文档1 文档2 文档3 文档4 …… 文档m
特征词1 特征词2 特征词3 ……
(stemming) (中文)分词、词性标注、短语识别、… 词频统计(TFIDF) 数据清洗:去掉噪声文档或文档内垃圾数据
非结构化数据分析 2019/7/4
向量空间模型[G.Salton,1971]
向量空间模型(Vector Space Model) 自然语言处理常用模型 基本概念
词语 词频(TF) 文档频率(DF ) 文档逆频率(IDF) 权重(TF*IDF)
粒子 0.05
50
900

0.35
900
900
应用 0.15
450
900
0.063 0 0.045
非结构化数据分析 2019/7/4
特征权重注解
特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全 局加权和标准化(Chisholm et al.,1999)。一般化的特征加权表示式如下:
比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可 以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间 没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方 法的关键。该方法比较常用。
非结构化数据分析 2019/7/4
文本表示注解
非结构化数据分析 2019/7/4
TF-IDF 应用举例
但是如果只关注词频 ,“应用”一词的权重更高。这时候,可以利 用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆 频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了 “应用”一词,900篇文章中均出现了“和”这个词语。那么采用 TF*IDF方法计算得到的权重如下:
权重11 权重12 权重13 ……
权重21 权重22 权重23 ……
权重31 权重32 权重33 ……
权重41 权重42 权重43 ……
……
……
……
……
权重m1 权重m2 权重m3 ……
特征词n 权重1n 权重2n 权重3n 权重4n …… 权重mn
非结构化数据分析 2019/7/4
VSM示意图
相似度比较
词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机 来自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经 常和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。
词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的 信息。且词组的形式提高了特征向量的语义含量,使得向量更稀疏。
近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系 (Entities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有 兴趣的读者可以参考后面所附的文献进行深入学习。
非结构化数据分析 2019/7/4
特征权重
非结构化数据分析 2019/7/4
特征权重
衡量某个特征项在文档表示中的重要程度或者 区分能力的强弱
更好的对文本进行表示 一般利用文本的统计信息:词频
非结构化数据分析 2019/7/4
常用的权重计算方法

非结构化数据分析 2019/7/4
TF-IDF 例子 ( Salton et al.,1983 )
相关主题