当前位置：文档之家› 文本处理

文本处理

来的文本进行类别判定。
文本表示(text representation)：
– 不管是训练还是测试，都要先分析出文本的某些特征 (feature，也称为标引项term)，然后把文本变成这些特征的某种适宜处理的表示形式，通常都采用向量表示形式或者直接使用某些统计量。
35
文本分类的过程(2)
36
18
Frequency)
– 数据清洗：去掉不合适的噪声文档或文档内垃圾数据文本表示
– 向量空间模型降维技术
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation，如LSI)
37
文本表示
向量空间模型(Vector Space Model，VSM)
12
6
停用词消除(2)
消除方法：
– 查表法：建立一个停用词表，通过查表的方式去掉停用词
– 基于DF的方法：统计每个词的DF，如果超过总文档数目的某个百分比(如80%)，则作为停用词去掉。
13
英文词干还原(1)
很多英文词源于同一词根，但是在文章中出出现多种形式，名词单复数、动词时态、形容词和副词的比较级与最高级等等。
31
应用
垃圾邮件的判定 – 类别{spam, not-spam}
新闻出版按照栏目分类 – 类别{政治,体育,军事,…}
词性标注 – 类别{名词,动词,形容词,…}
词义排歧 – 类别{词义1,词义2,…}
计算机论文的领域 – 类别ACM system
• H: information systems • H.3: information retrieval and storage
15
中文重叠词还原(1)
汉语的某些形容词有重叠式用法
– 这些重叠式用法是词典里所没有的，所以必须通过还原算法从重叠式用法变回到基本形式上
– 也可以看成是一种“词干”还原
16
8
中文重叠词还原(2)
双字形容词的重叠用法
– ABAB式，AABB式、A里AB式。
例
17
中文重叠词还原(3)
单字形容词的重叠用法
27
思考
有人说检索也可以看成分类问题，你怎么看？如果可以看成分类的话，相关反馈的作用是什么？
如何把中文分词看成一种分类问题？
28
14
文本分类的定义
事先给定分类体系和训练样例(标注好类别信息的文本)，将文本分到某个或者某几个类别中。
– 计算机自动分类，就是根据已经标注好类别信息的训练集合进行学习，将学习到的规律用于新样本(也叫测试样本)的类别判定。
对大小写的考虑：
– 通常情况下，不考虑大小写，词法分析程序会将所有字母全部变成大写或者小写。
– 但是，某些情况下，同一个单词的大小写含义不一样，
如: China(中国)和china(陶瓷)
5
中文词法分析(1)
中文分词是很多中文文本处理的第一步
– 我国科学家近日研制出一套水下反恐监控系统
分词方法
– 分类是有监督/指导学习(Supervised Learning)的一种
29
文本分类的模式
从类别数目来分
– 2类(binary)问题，类别体系由两个互补类构成，一篇文本属于或不属于某一类。
– 多类(multi-class)问题，类别体系由三个或者以上的类别构成，一篇文本可以属于某一个或者多个类别，通常可以通过拆分成多个2类问题来实现，也有直接面对多类问题的分类方法
文本处理
张茂元 E-mail: zmydragon@
1
内容
文档预处理
– 词法分析 – 停用词消除 – 词干还原 – Term选择
文本分类
– 文本分类的定义和应用 – 文本分类的方法 – 文本分类的评估指标
文本聚类
– 文本聚类的定义 – 文本聚类的方法 – 文本聚类的评估指标
特征抽取(Feature Extraction)
预处理 – 去掉html一些tag标记 – 禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、… – 标引项频率统计
• TFi,j: 特征i在文档j中出现次数，标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目，文档频率(Document
32
16
人工方法和自动方法
人工方法：人工总结规则 – 优点：
• 结果容易理解：如足球and 联赛体育类
– 缺点：
• 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象，没有基于真实语料的分布
– 代表方法：人们曾经通过知识工程的方法建立专家系统 (80年代末期)用于分类。
从是否兼类看分
– 单标签(single label)问题：一个文本只属于一个类 – 多标签(multi-label)问题：一个文本可以属于多类，即出
现兼类现象
30
15
关于分类体系
分类体系的构建标准可以是按照语义(如：政治、经济、军事…)，也可以是按照其他标准(如：垃圾vs. 非垃圾；游戏网站vs. 非游戏网站)，完全取决于目标应用的需求。
分类/聚类的根本原因就是因为对象数目太多，处理困难
– 一些信息处理部门，一个工作人员一天要看上千份信息 – 分门别类将会大大减少处理难度，提高处理效率和效果
26
13
分类/聚类的过程
对对象进行表示
– 表示方法 – 特征选择
根据某种算法进行相似度计算
– 相似度计算方法 – 分类/聚类方法
– 统计方法：分词过程中或者分词结束后根据统计训练信息进行处理。
– 规则+统计
10
5
中英文词法分析
词性标注(part-of-speech tagging)
– They/pron are/prep boys/noun and/conj girls/noun.
通常的方法：
– 规则方法：普通规则方法，基于错误转换驱动的方法 – 统计方法：HMM – 规则+统计
– 基于词典的方法：给出一部词典，根据这部词典进行匹配
– 无词典的方法：不需要词典，根据某种人工构词规则或者统计规则从字生成词。
6
3
中文词法分析(2)
正向最大匹配(基于词典的方法)
7
中文词法分析(3)
逆向最大匹配(基于词典的方法)
8
4
中文词法分析(4)
分词中遇到的两大难题：
– 未登录词问题(Out of Vocabulary,OOV)：出现词典中没有的词，如：人名、地名、机构名、一些新词等等
24
12
什么是聚类
简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。
– 去研究生院一个大教室上自习，往往发现大家三三两两扎推地坐，一打听，原来坐在一块的大都是一个班的。
– 事先不知道“标签”，根据对象之间的相似情况进行成团分析。
25
信息处理中分类和聚类的原因
统计方法通过计算得到一些数学表达式来指导分类。规则方法和统计方法没有本质的区别，它们都是想得
到某种规律性的东西来指导分类，统计方法得到的数学表达式可以认为是某种隐式规则。在目前的文本分类当中，统计方法占据了主流地位。
34
17
文本分类的过程(1)
两个步骤：
– 训练(training)：即从训练样本中学习分类的规律。 – 测试(test或分类classification)：根据学习到的规律对新
– 歧义问题(Ambiguition)：同一句子有多种可能的分词结果
• 交叉性歧义：我们小组合成氢气或我们/小/组合/成/氢气
我们/小组/合成/氢气
• 组合性歧义：他/从/马/上/下/来；我/马上/就/来/了
9
中文词法分析(5)
解决歧义和未登录词识别的基本方法:
– 规则方法：分词过程中或者分词结束后根据规则进行处理；
– 但是，一些和字符组合的数字，如“510B.C”，还有一些长数字，如身份证号、手机号，可能是非常好的index term。
最简单的做法
– 就是所有数字都去掉
复杂的方法
– 需要引入规则来分析，包括对时间的识别和归一化，如： October 1978，Oct. 1978都要归一化成某个统一表示
2
1
词法分析(Lexical Analysis)
将文档的字符串序列变成词序列
– 英文词法分析
• 书写时英文词之间通常通过空格或者标点进行区分，因此从英文字符串变成英文词是相对比较容易的。
– 中文词法分析
• 书写时通常没有空格，需要分词
3
英文词法分析(1)
数字的考虑：
– 某人想查询1978到1989年间车祸的死亡人数，可能查出来的结果有很多这两年本身的死亡人数，因此，上面的查询中，数字不是一个很好的index term。
4
2
英文词法分析(2)
对连字号的考虑：
– 有些连字号中的词可以分开，如state-of-the-art变成state of the art
– 有些连字号中的词不宜分开，如B-49(一款分机型号)
– 进行词法分析时需要考虑引入一些规则方法
英文句点的考虑：
– 通常的情况下可以去掉
– 但是当句点是词的一部分的时候，需要保留，如： 510B.C 和
自动的方法(学习)：从训练语料中学习规则 – 优点：
• 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本，可信度高

e商务文档

文本处理

相关文档推荐：