当前位置:文档之家› 文本挖掘(新)

文本挖掘(新)


文本分类基本步骤
Company Logo
文本分类过程
文本表示
训练过程
训练文本 统计
特征表示
统计量
学习
分类器
新文本
文本特征表示 类别
分类过程
Company Logo
文本聚类
Company Logo
文本聚类基本步骤
Company Logo
文本聚类基本步骤
Company Logo
文本检索应用实例
Company Logo
文本挖掘的任务
文本挖掘预处理
原始的非结构化数据源结构化表示
文本模式挖掘
文本挖掘系统核心功能是分析文本集合中各个文本之间 共同出现的模式 例如:蛋白质P1和酶E1存在联系,在其他文章中说酶 E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系 起来,我们可以推断出P1和P2存在联系
Company Logo
特征抽取
从原始特征集产生新的、更少的合成特征 集。 1.语义分析 2.同义项合并 目前效果较好的方法是采用知网( Hownet)、概念层次网络(HNC)等词 典资源计算词语间的相似度来进行义项合 并
Company Logo
文本挖掘模式发现方法
文本分类 有监督学习方式 文本聚类 无监督学习方式
查询:相关度
按相 似度 排序
Company Logo
文档间相似度(余弦定理)
Company Logo

Company Logo
IBM Intelligent Miner for Text
Company Logo
SAS®Text Miner
Company Logo
Company Logo
文本检索过程
Company Logo
文本检索基本步骤
Company Logo
倒排表
Company Logo
倒排表例子
Company Logo
倒排表实际存储结构
Company Logo
实例分析
分词,选择特征值,过滤常用词
Company Logo
文档向量话
Company Logo
文本挖掘:文档本身是半结构化的或非 结构化的,无确定形式并且缺乏机器可 理解的语义; 数据挖掘:其对象以数据库中的结构化 数据为主,并利用关系表等存储结构来 发现知识 因此,数据挖掘的技术不适用于文本挖 掘,或至少需要预处理。
Company Logo
文本挖掘概念
文本挖掘旨在通过识别和检索令人感兴趣的模式 ,进而从数据源中抽取有用的信息。文本挖掘的 数据源是文本集合,令人感兴趣的模式不是从形 式化的数据库记录里发现,而是从非结构化得数 据中发现。
Company Logo
国外基于规则的机器翻译系统
乔治敦大学的机译系统 法国格勒诺布尔大学的俄法机译系统 加拿大的TAUM-METEO系统 日本的ATLAS 日本的其他实用性机译系统 法国纺织研究所的 TITUS-IV 系统 美国的SYSTRAN系统 美国的WEIDNER系统 美国的PAHO系统 …
文本挖掘
--by信息学院 方艺璇
Company Logo
Contents
1. 文本挖掘概述
2. 文本 3. 模式发现 4. 应用实例 5. 文本挖掘工具
6. 国内外研究状况
Company Logo
信息爆炸
Company Logo
信息检索
Company Logo
文本挖掘产生背景(续)
文本挖掘与数据挖掘的区别:
挖掘结果可视化
也就是文本挖掘系统的表示层,简称浏览
Company Logo
文本挖掘处理过程
特征的 建立
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文档集
文本挖掘的一般处理过程
Company Logo
文本表示
向量空间模型
特征建立
特征抽取
特征选择
Company Logo
向量空间模型
Company Logo
特征选择
由于文档中的字词大多数都是与分类任务无关的 ,特征选择就是在不影响分类性能的前提下删除 不相关的字词的过程。这样子许多系统执行过滤 ,删除了90%~99%的特征。
例如:我是一名来自中国人民大学信息学院的研 究生… {(中国人民大学,0.15),(信息学院,0.2),(研究 生,0.2)…}
SPSS Text Mining
SPSS Text Mining
Company Logo
国内研发系统
Company Logo
国内研发系统(续)
ompany Logo
国内基于规则的机器翻译系统
俄汉机译系统 英汉题录机译系统TITLE 汉-法/英/日/俄/德多语言机器翻译系统FAJRA “译星”英汉系统 “高立”英汉系统 863-IMT/EC英汉系统 Matrix英汉系统 通译英汉-汉英系统 …
Company Logo
维度权值计算方法
目前广泛采用TF/IDF权值计算方法, TF-IDF 的主要思想是,如果某个词或短语在一篇文章中 出现的频率TF高,并且在其他文章中很少出现, 则认为此词或者短语具有很好的类别区分能力, 适合用来分类。TF词频(Term Frequency)指 的是某一个给定的词语在该文件中出现的次数。 IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文 档越少,IDF越大,则说明词条具有很好的类别 区分能力。
自动分类优点: 减小人工分类的繁杂工作 提高信息处理的效率 减小人工分类的主观性
Company Logo
文本自动分类
步骤
定义分类体系 将预先分类过的文档作为训练集 从训练集中得出分类模型(需要测试过程,不断 细化) 用训练获得出的分类模型对其它文档加以分类
Company Logo
Company Logo
文本挖掘的一些工具
OpenNLP 可以处理文本的java包 KIM 语义分析引擎 BioJava 可以处理生物学的开源软件 LIBSVM 支持向量模型的多类别分类软件
Company Logo
Company Logo
Company Logo
分类举例
Open Directory(/) 志愿者共同维护与建设的最大的全球目录社区
Company Logo
分类的概念
Company Logo
分类体系
Company Logo
文本自动分类定义
Company Logo
文本分类
应用领域 门户网站(网页) 图书馆(电子资料) …
相关主题