文本处理
来的文本进行类别判定。
文本表示(text representation):
– 不管是训练还是测试,都要先分析出文本的某些特征 (feature,也称为标引项term),然后把文本变成这些特 征的某种适宜处理的表示形式,通常都采用向量表示形 式或者直接使用某些统计量。
35
文本分类的过程(2)
36
18
Frequency)
– 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 文本表示
– 向量空间模型 降维技术
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation,如LSI)
37
文本表示
向量空间模型(Vector Space Model,VSM)
12
6
停用词消除(2)
消除方法:
– 查表法:建立一个停用词表,通过查表的方式去掉停用 词
– 基于DF的方法:统计每个词的DF,如果超过总文档数 目的某个百分比(如80%),则作为停用词去掉。
13
英文词干还原(1)
很多英文词源于同一词根,但是在文章中出出现多种 形式,名词单复数、动词时态、形容词和副词的比较 级与最高级等等。
31
应用
垃圾邮件的判定 – 类别{spam, not-spam}
新闻出版按照栏目分类 – 类别{政治,体育,军事,…}
词性标注 – 类别{名词,动词,形容词,…}
词义排歧 – 类别{词义1,词义2,…}
计算机论文的领域 – 类别ACM system
• H: information systems • H.3: information retrieval and storage
15
中文重叠词还原(1)
汉语的某些形容词有重叠式用法
– 这些重叠式用法是词典里所没有的,所以必须通过还原 算法从重叠式用法变回到基本形式上
– 也可以看成是一种“词干”还原
16
8
中文重叠词还原(2)
双字形容词的重叠用法
– ABAB式,AABB式、A里AB式。
例
17
中文重叠词还原(3)
单字形容词的重叠用法
27
思考
有人说检索也可以看成分类问题,你怎么看?如果可 以看成分类的话,相关反馈的作用是什么?
如何把中文分词看成一种分类问题?
28
14
文本分类的定义
事先给定分类体系和训练样例(标注好类别信息的文 本),将文本分到某个或者某几个类别中。
– 计算机自动分类,就是根据已经标注好类别信息的训练 集合进行学习,将学习到的规律用于新样本(也叫测试 样本)的类别判定。
对大小写的考虑:
– 通常情况下,不考虑大小写,词法分析程序会将所有字 母全部变成大写或者小写。
– 但是,某些情况下,同一个单词的大小写含义不一样,
如: China(中国)和china(陶瓷)
5
中文词法分析(1)
中文分词是很多中文文本处理的第一步
– 我国科学家近日研制出一套水下反恐监控系统
分词方法
– 分类是有监督/指导学习(Supervised Learning)的一种
29
文本分类的模式
从类别数目来分
– 2类(binary)问题,类别体系由两个互补类构成,一篇文 本属于或不属于某一类。
– 多类(multi-class)问题,类别体系由三个或者以上的类别 构成,一篇文本可以属于某一个或者多个类别,通常可 以通过拆分成多个2类问题来实现,也有直接面对多类 问题的分类方法
文本处理
张茂元 E-mail: zmydragon@
1
内容
文档预处理
– 词法分析 – 停用词消除 – 词干还原 – Term选择
文本分类
– 文本分类的定义和应用 – 文本分类的方法 – 文本分类的评估指标
文本聚类
– 文本聚类的定义 – 文本聚类的方法 – 文本聚类的评估指标
特征抽取(Feature Extraction)
预处理 – 去掉html一些tag标记 – 禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、… – 标引项频率统计
• TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document
32
16
人工方法和自动方法
人工方法:人工总结规则 – 优点:
• 结果容易理解:如足球and 联赛 体育类
– 缺点:
• 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象,没有基于真实语料的分布
– 代表方法:人们曾经通过知识工程的方法建立专家系统 (80年代末期)用于分类。
从是否兼类看分
– 单标签(single label)问题:一个文本只属于一个类 – 多标签(multi-label)问题:一个文本可以属于多类,即出
现兼类现象
30
15
关于分类体系
分类体系的构建标准可以是按照语义(如:政治、经济、 军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾; 游戏网站vs. 非游戏网站),完全取决于目标应用的需 求。
分类/聚类的根本原因就是因为对象数目太多,处理困 难
– 一些信息处理部门,一个工作人员一天要看上千份信息 – 分门别类将会大大减少处理难度,提高处理效率和效果
26
13
分类/聚类的过程
对对象进行表示
– 表示方法 – 特征选择
根据某种算法进行相似度计算
– 相似度计算方法 – 分类/聚类方法
– 统计方法:分词过程中或者分词结束后根据统计训练信 息进行处理。
– 规则+统计
10
5
中英文词法分析
词性标注(part-of-speech tagging)
– They/pron are/prep boys/noun and/conj girls/noun.
通常的方法:
– 规则方法:普通规则方法,基于错误转换驱动的方法 – 统计方法:HMM – 规则+统计
– 基于词典的方法:给出一部词典,根据这部词典进行匹 配
– 无词典的方法:不需要词典,根据某种人工构词规则或 者统计规则从字生成词。
6
3
中文词法分析(2)
正向最大匹配(基于词典的方法)
7
中文词法分析(3)
逆向最大匹配(基于词典的方法)
8
4
中文词法分析(4)
分词中遇到的两大难题:
– 未登录词问题(Out of Vocabulary,OOV):出现词典中没 有的词,如:人名、地名、机构名、一些新词等等
24
12
什么是聚类
简单地说,聚类是指事先没有“标签”而通过某种成 团分析找出事物之间存在聚集性原因的过程。
– 去研究生院一个大教室上自习,往往发现大家三三两两 扎推地坐,一打听,原来坐在一块的大都是一个班的。
– 事先不知道“标签”,根据对象之间的相似情况进行成 团分析。
25
信息处理中分类和聚类的原因
统计方法通过计算得到一些数学表达式来指导分类。 规则方法和统计方法没有本质的区别,它们都是想得
到某种规律性的东西来指导分类,统计方法得到的数 学表达式可以认为是某种隐式规则。 在目前的文本分类当中,统计方法占据了主流地位。
34
17
文本分类的过程(1)
两个步骤:
– 训练(training):即从训练样本中学习分类的规律。 – 测试(test或分类classification):根据学习到的规律对新
– 歧义问题(Ambiguition):同一句子有多种可能的分词结 果
• 交叉性歧义:我们小组合成氢气 或我们/小/组合/成/氢气
我们/小组/合成/氢气
• 组合性歧义:他/从/马/上/下/来;我/马上/就/来/了
9
中文词法分析(5)
解决歧义和未登录词识别的基本方法:
– 规则方法:分词过程中或者分词结束后根据规则进行处 理;
– 但是,一些和字符组合的数字,如“510B.C”,还有一 些长数字,如身份证号、手机号,可能是非常好的index term。
最简单的做法
– 就是所有数字都去掉
复杂的方法
– 需要引入规则来分析,包括对时间的识别和归一化,如: October 1978,Oct. 1978都要归一化成某个统一表示
2
1
词法分析(Lexical Analysis)
将文档的字符串序列变成词序列
– 英文词法分析
• 书写时英文词之间通常通过空格或者标点进行区分,因此 从英文字符串变成英文词是相对比较容易的。
– 中文词法分析
• 书写时通常没有空格,需要分词
3
英文词法分析(1)
数字的考虑:
– 某人想查询1978到1989年间车祸的死亡人数,可能查出 来的结果有很多这两年本身的死亡人数,因此,上面的 查询中,数字不是一个很好的index term。
4
2
英文词法分析(2)
对连字号的考虑:
– 有些连字号中的词可以分开,如state-of-the-art变成state of the art
– 有些连字号中的词不宜分开,如B-49(一款分机型号)
– 进行词法分析时需要考虑引入一些规则方法
英文句点的考虑:
– 通常的情况下可以去掉
– 但是当句点是词的一部分的时候,需要保留,如: 510B.C 和
自动的方法(学习):从训练语料中学习规则 – 优点:
• 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本,可信度高