当前位置：文档之家› 文本挖掘与Web 数据挖掘

文本挖掘与Web 数据挖掘

2020/9/22
常见分词工具
ICTCLAS
中国科学院计算技术研究所开发采用层叠隐马尔可夫模型中文分词，词性标注，命名实体识别，新词识别支持C/C++/C#/Delphi/Java等主流开发语言
imdict-Chinese-analyzer
ICTCLAS中文分词程序基于Java的重新实现采用基于隐马尔科夫模型的方法直接为Lucene搜索引擎提供简体中文分词支持
2020/9/22
基于文档频率的方法
文档频率是指所有训练文本中出现某个特征词的频率
是一种无监督的方法通常会分别设置一个小的阈值和大的阈值来过
滤一些低频词和频数特别高的词特点
优点：简单、易行缺点：低频词有时能很好反映类别信息；忽略了特
征词在文档中出现的次数
2020/9/22
基于信息增益的方法
n
P C j ti
log 2
P
Cj
ti
j1
j1
j1
信息增益是最常用的文本特征选择方法之一
特点：该方法只考察特征词对整个分类的区分能力，不能具体到某个类别上
2020/9/22
8.1.4 文本分类
文本自动分类(简称“文本分类”)是在预定义的分类体系下，根据文本的特征(词条或短语)，将给定文本分配到特定一个或多个类别的过程
8.1.3 文本特征选择
文本特征选择是根据某种准则从原始特征中选择部分最有区分类别能力的特征
主要分为无监督和有监督的方法常用的方法有以下几种
文档频率(Document Frequency，DF) 单词权(Term Strength，TS) 信息增益(Information Gain，IG) 互信息(Mutual Information，MI) 期望交叉熵(Expected Cross Entropy，ECE)
2020/9/22
常见分词工具(续)
盘古分词
基于.net Framework的中英文分词组件中文未登录词识别、人名识别、多元分词等功能支持英文专用词识别、英文原词输出、英文大小写
同时输出等单线程分词速度为390 KB/s，双线程分词速度为
690 KB/s( Core Duo 1.8 GHz )
特点：简单，易实现；正确率受词典大小限制
2020/9/22
基于统计的分词法
假设：词是稳定的单字组合，直观地，在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词
只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典(统计)分词法
基于统计模型的分词方法是研究热点，如基于隐马尔可夫的方法、基于最大熵的方法
分词法主要分为以下三大类：基于词典的方法、基于统计的方法、基于语法分析的方法
2020/9/22
基于词典的分词法
正向最大匹配
从左开始算起，最大是指从一个设定的长度开始匹配，直到第一个匹配成功就切分成为一个词
逆向最大匹配
与正向最大匹配相似，区别在于从右至左匹配
例子：研究生命起源
正向匹配结果：研究生/命/起源逆向匹配结果：研究/生命/起源
其它
Paoding(庖丁解牛分词)、HTTPCWS、 MMSEG4J以及CC-CEDICT等
2020/9/22
8.1.2 文本表示与词权重计算
目前文本表示主要是采用向量空间模型 (Vector Space Model，VSM)
每个文本被表示为在一个高维词条空间中的一个向量
di ti,1 : wi,1,ti,2 : wi,2 ,ti,3 : wi,3 ,...,ti,m : wi,m
基本步骤可以分为三步：
将预先分过类的文本作为训练集输入构建分类模型对新输入的文本进行分类
常见的算法包括：线性分类器、k最近邻分类器、朴素贝叶斯、决策树、支持向量机分类器
2020/9/22
8.1.1 分词
分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程
英文：单词之间以空格作为自然分界符，容易中文：词没有一个形式上的分界符，难
中文分词极具挑战性的问题
歧义切分问题：[研究/生]物；学生会|学生会玩魔方未登录词问题：新词(木有、凡客体)，人名等
2020/9/22
常见分词工具(续)
IKAnalyzer
采用特有的“正向迭代最细粒度切分算法” 基于Java语言开发的轻量级开源分词工具包 60万字/秒的高速处理能力
简易中文分词系统SCWS
hightman 个人开发采用标准C开发提供 C接口、PHP扩展(源码、WIN32的DLL文件)
特点：精度高、词性标注、命名实体识别；需要语料作支撑
2020/9/22
基于中文语法的分词方法
通过让计算机模拟人对句子的理解，达到识别词的效果
其基本思想就是在分词的同时进行句法、语义分析，利用句法和语义信息来处理歧义现象
包括三个部分：分词子系统、句法语义子系统、总控部分
特点：由于汉语语言知识的笼统、复杂性，基于理解的分词系统还处在试验阶段
第8章文本挖掘与Web 数据挖掘
• 文本挖掘 • Web数据挖掘>> •案例五：跨语言智能学术搜索系统>> •案例六：基于内容的垃圾邮件识别>>
2020/9/22
8.1 文本挖掘
8.1.1 分词 8.1.2 文本表示与词权重计算 8.1.3 文本特征选择 8.1.4 文本分类 8.1.5 文本聚类 8.1.6 文档自动摘要
词条权重wi,j一般采用TF×IDF方法来nti,j 计•log算N得到
tfti , j
nti , j Ni
N
idfti , j
log mt i , j
wi, j tfti, j idf ti, j
Ni
mti , j
2
m nti,j • log N
j1
Ni
mti , j
2020/9/22
根据某个特征词t在一篇文档中出现或者不出现的次数来计算为分类所能提供的信息量，并根据该信息量大小来衡量特征词的重要程度，进而决定特征词的取舍
IGti H C H C |ti
n
P Cj
log2 P C j
P
ti
n
P C j ti
log2 P C j ti P ti

e商务文档

文本挖掘与Web 数据挖掘

相关文档推荐：