当前位置：文档之家› 文本挖掘(新)

文本挖掘(新)

文本分类基本步骤
Company Logo
文本分类过程
文本表示
训练过程
训练文本统计
特征表示
统计量
学习
分类器
新文本
文本特征表示类别
分类过程
Company Logo
文本聚类
Company Logo
文本聚类基本步骤
Company Logo
文本聚类基本步骤
Company Logo
文本检索应用实例
Company Logo
文本挖掘的任务
文本挖掘预处理
原始的非结构化数据源结构化表示
文本模式挖掘
文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如：蛋白质P1和酶E1存在联系，在其他文章中说酶 E1和酶E2功能相似，还有文章把酶E2和蛋白质P2联系起来，我们可以推断出P1和P2存在联系
Company Logo
特征抽取
从原始特征集产生新的、更少的合成特征集。 1.语义分析 2.同义项合并目前效果较好的方法是采用知网（ Hownet）、概念层次网络（HNC）等词典资源计算词语间的相似度来进行义项合并
Company Logo
文本挖掘模式发现方法
文本分类有监督学习方式文本聚类无监督学习方式
查询：相关度
按相似度排序
Company Logo
文档间相似度（余弦定理）
Company Logo

Company Logo
IBM Intelligent Miner for Text
Company Logo
SAS®Text Miner
Company Logo
Company Logo
文本检索过程
Company Logo
文本检索基本步骤
Company Logo
倒排表
Company Logo
倒排表例子
Company Logo
倒排表实际存储结构
Company Logo
实例分析
分词，选择特征值，过滤常用词
Company Logo
文档向量话
Company Logo
文本挖掘：文档本身是半结构化的或非结构化的，无确定形式并且缺乏机器可理解的语义；数据挖掘：其对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识因此，数据挖掘的技术不适用于文本挖掘，或至少需要预处理。
Company Logo
文本挖掘概念
文本挖掘旨在通过识别和检索令人感兴趣的模式，进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合，令人感兴趣的模式不是从形式化的数据库记录里发现，而是从非结构化得数据中发现。
Company Logo
国外基于规则的机器翻译系统
乔治敦大学的机译系统法国格勒诺布尔大学的俄法机译系统加拿大的TAUM-METEO系统日本的ATLAS 日本的其他实用性机译系统法国纺织研究所的 TITUS-IV 系统美国的SYSTRAN系统美国的WEIDNER系统美国的PAHO系统 …
文本挖掘
--by信息学院方艺璇
Company Logo
Contents
1. 文本挖掘概述
2. 文本 3. 模式发现 4. 应用实例 5. 文本挖掘工具
6. 国内外研究状况
Company Logo
信息爆炸
Company Logo
信息检索
Company Logo
文本挖掘产生背景（续）
文本挖掘与数据挖掘的区别：
挖掘结果可视化
也就是文本挖掘系统的表示层，简称浏览
Company Logo
文本挖掘处理过程
特征的建立
特征集的缩减
学习与知识模式的提取
模式质量的评价
知识模式
文档集
文本挖掘的一般处理过程
Company Logo
文本表示
向量空间模型
特征建立
特征抽取
特征选择
Company Logo
向量空间模型
Company Logo
特征选择
由于文档中的字词大多数都是与分类任务无关的，特征选择就是在不影响分类性能的前提下删除不相关的字词的过程。这样子许多系统执行过滤，删除了90%~99%的特征。
例如：我是一名来自中国人民大学信息学院的研究生… {(中国人民大学,0.15),(信息学院,0.2),(研究生,0.2)…}
SPSS Text Mining
SPSS Text Mining
Company Logo
国内研发系统
Company Logo
国内研发系统（续）
ompany Logo
国内基于规则的机器翻译系统
俄汉机译系统英汉题录机译系统TITLE 汉-法/英/日/俄/德多语言机器翻译系统FAJRA “译星”英汉系统 “高立”英汉系统 863-IMT/EC英汉系统 Matrix英汉系统通译英汉-汉英系统 …
Company Logo
维度权值计算方法
目前广泛采用TF/IDF权值计算方法， TF-IDF 的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF反文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。
自动分类优点：减小人工分类的繁杂工作提高信息处理的效率减小人工分类的主观性
Company Logo
文本自动分类
步骤
定义分类体系将预先分类过的文档作为训练集从训练集中得出分类模型（需要测试过程，不断细化）用训练获得出的分类模型对其它文档加以分类
Company Logo
Company Logo
文本挖掘的一些工具
OpenNLP 可以处理文本的java包 KIM 语义分析引擎 BioJava 可以处理生物学的开源软件 LIBSVM 支持向量模型的多类别分类软件
Company Logo
Company Logo
Company Logo
分类举例
Open Directory（/）志愿者共同维护与建设的最大的全球目录社区
Company Logo
分类的概念
Company Logo
分类体系
Company Logo
文本自动分类定义
Company Logo
文本分类
应用领域门户网站（网页）图书馆（电子资料） …

e商务文档

文本挖掘(新)

相关文档推荐：