当前位置:文档之家› 云计算与大数据:文本挖掘

云计算与大数据:文本挖掘


词典与基于规则分词
17











Start State Temp State
End State
树型结构的词典构成举例
18
基于词网格的最少分词
19
基于词网格的分词技术
框架构成
20
专业词典抽取问题
专业词往往在某一个领域或几个领域内经 常出现。
领域的划分可根据行业或参照“中图分类 法”进行
文本分类
24
文本分类任务
文本分类是将文本按照一定的分类体系或 标准进行自动分类标记,可能分到一个类 或者几个类中。
应用于搜索引擎、信息抽取、信息过滤、 问答系统等 Vector Space Model, VSM)由Salton等人于20世纪70年代提出 ,并成功地应用于著名的SMART文本检 索系统。
方法 归纳学习、决策树、神经网络、提取短语、形成概念、关联
粗糙集、遗传算法等
分析、聚类、分类
成熟度 从1994年开始得到广泛应用 从2000年开始得到广泛应用
9
文本挖掘概念
文本挖掘旨在通过识别和检索令人感兴趣的模式 ,进而从数据源中抽取有用的信息。
文本挖掘的数据源是文本集合,令人感兴趣的模 式不是从形式化的数据库记录里发现,而是从非 结构化的数据中发现。
金融,计算机,网络,电子工程,生物化学 ,医学等。
这里的领域还可以是用户自定义的范围。
21
专业词典抽取框架
平衡语料 词抽取算法
候选词列表
通用词典
手工核查
专业语料
候选词列表
通用词典
过滤出通用词
专业词候选
专业词典
相关软件
/
22
分词精度超过98%
庖丁解牛分词器:基于Lucene的中文分词器开 源软件系统。
26
举例:有5个文本
D1:在高校学习文本分析与文本挖掘。 D2:高校学习真有趣。 D3:文本分析与文本挖掘是一门重要课程。 D4:数据处理是重要的。 D5:数据处理是数据挖掘的重要基础。
27
停用词去除:
英语中这些词一般是介词和冠词,比如“a” 、“the”或“on”,et al.
中文:的 地 得 了 阿 吗,等
30
词频向量
高学文分挖有重课数处基 校习本析掘趣要程据理础 D1 1 1 2 1 1 0 0 0 0 0 0 D2 1 1 0 0 0 1 0 0 0 0 0 D3 0 0 2 1 1 0 1 1 0 0 0 D4 0 0 0 0 0 0 1 0 1 1 0 D5 0 0 0 0 1 0 1 0 2 1 1
最多次数
TF(i,
d
)
freq(i,
freq(
d) j, d
)
j
将文档中词出现的实际次数除 以所有词出现的总次数
IDF的计算方法
两种方法:
IDF(i) log N n(i) 1
N为所有文档的数量,n(i)为N中出现 过关键词i的文档 数量。
33
旨在降低所有文档中几乎 都会出现的关键词的权重 。 思想:常见的词语对于区 分文档没有用,应该给出 仅出现在某些文档中的词 更高的权重。 描述关键词的类别区分能 力。
TF的计算方法
32
文档归一化?
TF(i, d) freq(i, d) max freq(d)
将文档中词出现的实际次数除 以该文档中各关键词出现的最 多次数
TF(i, d )
freq(i, d )
将文档中词出现的实际次数除 , j i 以该文档中其他关键词出现的
max Others( j, d)
例如将“军事类”中每篇文章进行向量化:
将军事类所有文章进 行各个维度的平均
军事类原型向量
(‘坦克,0.010’,‘侵略,0.003’,‘战机,0.003’ ……)
39
当有一篇新的文章要进行分类时,同样进 行分词和向量化,也标记成向量和词频的 形式,然后和原型项量进行比较,计算余 弦相似性。
cos( )
12
(2)词性标注 我/要/好好/学习/文本/分析/与/文本/挖掘/
我/r 要/v 好好/d 学习/v 文本/n 分析/vn 与/c 文本/n 挖掘/vn 。/w。
r v d n vn c w 。。。
代词 动词 副词 名词 动名词 连词 标点
13
14
(3)命名实体识别 命名实体是指人名、地名、机构名等。
将数据挖掘的成果用于分析以自然语言描述的文本 ,这种方法被称为文本挖掘(Text Mining)或文本知 识发现(Knowledge Discovery in Text).
5
文本检索应用实例
6
文本检索过程
7
文本挖掘与数据挖掘的区别:
文本挖掘:文档本身是半结构化的或非 结构化的,无确定形式并且缺乏机器可 理解的语义;
31
TF-IDF
Salton在1975提出。 TF代表词频(Term frequency)
词在文档中出现的频次
IDF反文档频率(Inverse document frequency)
衡量一个词对于区分文档类别的重要程度
TF-IDF的总体思想:词的描述能力受两个要素影响,一是词 的频次,词在文档中出现的频次越高(TF高)则描述该文档的 代表性越强;二是词本身的描述能力,用反文档频率来度量 ,即若一个词出现在较少的文档类别中,则其描述能力较强 (IDF高)。
数据挖掘:其对象以数据库中的结构化 数据为主,并利用关系表等存储结构来 发现知识
因此,数据挖掘的技术不适用于文本挖 掘,或至少需要预处理。
数据挖掘
8
文本挖掘
研究对象 用数字表示的、结构化的数据 无结构或者半结构化的文本
对象结构
关系数据库
自由开放的文本
目标 获取知识,预测以后的状态
提取概念和知识
人名举例如王岩、孙桂平、王二小; 北京、哈尔滨、北京市东城区王府井 清华大学、哈尔滨工业大学
商品、武器
15
词法分析研究面临困难
中文各词之间不存在显式的分界符; 缺少ing,ed信息 歧义、未知词识别
和英文分词相比, 中文分词更加困难 ,为什么?
16
一体化中文词法分析框架 姜维.《文本分析与文本挖掘》.科学出版社.2018
将剩余词汇可以看做术语
29
利用术语描述文档的布尔向量
高学文分挖有重课数处基 校习本析掘趣要程据理础 D1 1 1 1 1 1 0 0 0 0 0 0 D2 1 1 0 0 0 1 0 0 0 0 0 D3 0 0 1 1 1 0 1 1 0 0 0 D4 0 0 0 0 0 0 1 0 1 1 0 D5 0 0 0 0 1 0 1 0 1 1 1
IDF(i)
m k 1
P(i,
ck
)
log
2
P(i,
ck
)
术语i在类别c中出
现的文档的个数
P(i, c) Count(i, c) Count(c)
术语i在类别c中出现的概率 类别c中总的文档个

34
TF-IDF(i, d) TF(i, d) IDF(i)
例:假如一篇文章的总词数是100个,词 语“汽车”出现了5次,“汽车”在该文 档中的词频是5/100=0.05; 如果“汽车”一词在100份文档中出现过 ,文档总份数是10000份,反文档频率为
核心思路:给每个文档的类别都做一个标 准向量——原型向量(中心向量)
用待分类文档的向量和这个标准向量比一 下余弦相似度,相似度越高越可能属于该 分类,反之则不然
例:某新闻网站中,希望构造一个自动的文章分类系统3,8 首先收集10000个样本,然后给每篇文章划分类别。
例如有“军事类”,“体育类”,“经济类”,“娱乐类 ”,“科技类”等,每篇文章都有至少一个所属的类别。
log(10000 /100)
35
术语的挑选
通过专业词典挑取具有基本语义的词 通过IDF值和术语出现的频次来衡量, 通过模型评价 通过相关度 混合方法
36
文本分类算法
Rocchio算法 K-近邻算法 朴素贝叶斯算法 决策树算法 神经网络算法 支持向量机算法
37
Rocchio算法
4
传统的自然语言理解是对文本进行较低层次的理解 ,主要进行基于词、语法和语义信息的分析,并通 过词在句子中出现的次序发现有意义的信息。
文本高层次理解的对象可以是仅包含简单句子的单 个文本也可以是多个文本组成的文本集,但是现有 的技术手段虽然基本上解决了单个句子的分析问题 ,但是还很难覆盖所有的语言现象,特别是对整个 段落或篇章的理解还无从下手。
词干还原:
“stemming”替换成“stem”,“went”替 换成“go”
university和universal的词干都是univers,可 能出现语义问题
28
文本向量
文档 词汇1 词汇2 词汇3 词汇4 词汇5 词汇6 D1 高校 学习 文本 分析 文本 挖掘 D2 高校 学习 有趣 D3 文本 分析 文本 挖掘 重要 课程 D4 数据 处理 重要 D5 数据 处理 数据 挖掘 重要 基础
s1c1 s2c2 sncn
s12 s22 sn2 c12 c22 cn2
40
Rocchio算法的缺点
1. 一个类别的文档只有一个质心; 2. 训练数据是绝对正确的。

41



42
43
小结
1. 理解什么是文本挖掘; 2. 理解分词; 3. 理解文档分类; 4. 试查找和学习其他文本挖掘知识。
文本挖掘领域:
搜索额信息检索 文本聚类 文本分类 Web挖掘 信息抽取 自然语言处理 概念提取
相关主题