文本挖掘与Web 数据挖掘
2020/9/22
常见分词工具
ICTCLAS
中国科学院计算技术研究所开发 采用层叠隐马尔可夫模型 中文分词,词性标注,命名实体识别,新词识别 支持C/C++/C#/Delphi/Java等主流开发语言
imdict-Chinese-analyzer
ICTCLAS中文分词程序基于Java的重新实现 采用基于隐马尔科夫模型的方法 直接为Lucene搜索引擎提供简体中文分词支持
2020/9/22
基于文档频率的方法
文档频率是指所有训练文本中出现某个特征词 的频率
是一种无监督的方法 通常会分别设置一个小的阈值和大的阈值来过
滤一些低频词和频数特别高的词 特点
优点:简单、易行 缺点:低频词有时能很好反映类别信息;忽略了特
征词在文档中出现的次数
2020/9/22
基于信息增益的方法
n
P C j ti
log 2
P
Cj
ti
j1
j1
j1
信息增益是最常用的文本特征选择方法之一
特点:该方法只考察特征词对整个分类的区分 能力,不能具体到某个类别上
2020/9/22
8.1.4 文本分类
文本自动分类(简称“文本分类”)是在预定义 的分类体系下,根据文本的特征(词条或短语), 将给定文本分配到特定一个或多个类别的过程
8.1.3 文本特征选择
文本特征选择是根据某种准则从原始特征中选 择部分最有区分类别能力的特征
主要分为无监督和有监督的方法 常用的方法有以下几种
文档频率(Document Frequency,DF) 单词权(Term Strength,TS) 信息增益(Information Gain,IG) 互信息(Mutual Information,MI) 期望交叉熵(Expected Cross Entropy,ECE)
2020/9/22
常见分词工具(续)
盘古分词
基于.net Framework的中英文分词组件 中文未登录词识别、人名识别、多元分词等功能 支持英文专用词识别、英文原词输出、英文大小写
同时输出等 单线程分词速度为390 KB/s,双线程分词速度为
690 KB/s( Core Duo 1.8 GHz )
特点:简单,易实现;正确率受词典大小限制
2020/9/22
基于统计的分词法
假设:词是稳定的单字组合,直观地,在上下 文中,相邻的字同时出现的次数越多,就越有 可能构成一个词
只需对语料中的字组频度进行统计,不需要切 分词典,因而又叫做无词典(统计)分词法
基于统计模型的分词方法是研究热点,如基于 隐马尔可夫的方法、基于最大熵的方法
分词法主要分为以下三大类:基于词典的方法、 基于统计的方法、基于语法分析的方法
2020/9/22
基于词典的分词法
正向最大匹配
从左开始算起,最大是指从一个设定的长度开始匹 配,直到第一个匹配成功就切分成为一个词
逆向最大匹配
与正向最大匹配相似,区别在于从右至左匹配
例子:研究生命起源
正向匹配结果:研究生/命/起源 逆向匹配结果:研究/生命/起源
其它
Paoding(庖丁解牛分词)、HTTPCWS、 MMSEG4J以及CC-CEDICT等
2020/9/22
8.1.2 文本表示与词权重计算
目前文本表示主要是采用向量空间模型 (Vector Space Model,VSM)
每个文本被表示为在一个高维词条空间中的一 个向量
di ti,1 : wi,1,ti,2 : wi,2 ,ti,3 : wi,3 ,...,ti,m : wi,m
基本步骤可以分为三步:
将预先分过类的文本作为训练集输入 构建分类模型 对新输入的文本进行分类
常见的算法包括:线性分类器、k最近邻分类 器、朴素贝叶斯、决策树、支持向量机分类器
2020/9/22
8.1.1 分词
分词(词切分)是指将连续的字序列按照一定的 规范重新组合成词序列的过程
英文:单词之间以空格作为自然分界符,容易 中文:词没有一个形式上的分界符,难
中文分词极具挑战性的问题
歧义切分问题:[研究/生]物;学生会|学生会玩魔方 未登录词问题:新词(木有、凡客体),人名等
2020/9/22
常见分词工具(续)
IKAnalyzer
采用特有的“正向迭代最细粒度切分算法” 基于Java语言开发的轻量级开源分词工具包 60万字/秒的高速处理能力
简易中文分词系统SCWS
hightman 个人开发 采用标准C开发 提供 C接口、PHP扩展(源码、WIN32的DLL文件)
特点:精度高、词性标注、命名实体识别;需 要语料作支撑
2020/9/22
基于中文语法的分词方法
通过让计算机模拟人对句子的理解,达到识 别词的效果
其基本思想就是在分词的同时进行句法、语 义分析,利用句法和语义信息来处理歧义现 象
包括三个部分:分词子系统、句法语义子系 统、总控部分
特点:由于汉语语言知识的笼统、复杂性, 基于理解的分词系统还处在试验阶段
第8章 文本挖掘与Web 数据挖掘
• 文本挖掘 • Web数据挖掘>> •案例五:跨语言智能学术搜索系统>> •案例六:基于内容的垃圾邮件识别>>
2020/9/22
8.1 文本挖掘
8.1.1 分词 8.1.2 文本表示与词权重计算 8.1.3 文本特征选择 8.1.4 文本分类 8.1.5 文本聚类 8.1.6 文档自动摘要
词条权重wi,j一般采用TF×IDF方法来nti,j 计•log算N得到
tfti , j
nti , j Ni
N
idfti , j
log mt i , j
wi, j tfti, j idf ti, j
Ni
mti , j
2
m nti,j • log N
j1
Ni
mti , j
2020/9/22
根据某个特征词t在一篇文档中出现或者不出 现的次数来计算为分类所能提供的信息量,并 根据该信息量大小来衡量特征词的重要程度, 进而决定特征词的取舍
IGti H C H C |ti
n
P Cj
log2 P C j
P
ti
n
P C j ti
log2 P C j ti P ti