自动文本分类
ຫໍສະໝຸດ Rocchio method
Drawback: centroid fall outside when docments occur in disjoint clusters
即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词 为“网络/ 与/ 分布式/ 系统/ 实验室/”。
Outline
分类过程
概念 一般过程
构建分类器的方法
Rocchio方法 k-近邻法(k-Nearest Neighbor,kNN) 决策树 朴素Bayes (Naive Bayes) 支持向量机(support vector machine,SVM)
分类结果评估
评估指标 标准语料库
特征选取的方法
Introduction
类:一组具有某一共同属性的事物对象的集合 Destination of categorization: Organizing
knowledge, Systematic knowledge structures, 有序化信息有利于信息的存储、检索、传播、开 发和利用 信息的分类方法主要有:
Rocchio method
定义两个向量的相似度为这两个向量夹角的余弦, 逐一计算训练集中所有文档和原型向量的相似度, 然后按一定的算法从中挑选某个相似度作为界
给定一篇文档,如果这篇文档与原型向量的相似度 比界大,则这篇文档属于这个类,否则这篇文档就 不属于这个类。
Rocchio算法的突出优点是容易实现,计算(训练和 分类)特别简单,它通常用来实现衡量分类系统性 能的基准系统,而实用的分类系统很少采用这种算 法解决具体的分类问题。
特征选取的方法
Classifier : Rocchio method
每一类确定一个中心点(代表元),计算待分类的文档 与各类代表元间的距离,并作为判定是否属于该类的判 据。
构造方法:给定一个类,训练集中所有属于这个类的文 档对应向量的分量用正数表示,所有不属于这个类的文 档对应向量的分量用负数表示,然后把所有的向量加起 来,得到的和向量就是这个类的原型向量
索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名 词或名词词组.
词干提取(英文中) countries => country,interesting => interest
组合词: 北京大学 中文切词(word segmentation),或称分词,主要在中文信息处理中使用,
Web catalogs
Tianwang in Pku
2002年
Yahoo!webpage
Web catalogs
Yahoo!
自动文档分类
文档自动分类(Automatic Text Categorization,ATC), 在给定的分 类体系下,根据文本的内容用计算机程序确定文本所属类别的过程.
the AMS Mathematics Subject Classification US Patent subject classification 中国图书馆图书分类法
1975年第一版发行,22类(5个大类) 中国科学院图书分类法
中国图书馆图书分类法简表 (22类)(5个大类)
A 马克思主义、列宁主义、毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书
训练集实 例
校验集
预处理
向量表示
分类算法
预处理 训练
特征选 取算法
候选类列表
特征项向 量表示 阈值 每个类的阈值
策略
测试
结果类别表
训练过程
分类过程
实现自动文本分类的方法
文档自动分类算法
词匹配法
统计学习法 知识工程法
Independency Binary
M-ary
DTree NB NN NNet Rocchio SVM LLSF KNN WORD
f : A B 其中,A为待分类的文本集合, B 为分类体系中的类别集 合
文本分类的映射规则是系统根据已经掌握的每类若 干样本的数据信息,总结出分类的规律性而建立的 判别公式和判别规则。然后在遇到新文本时,根据 总结出的判别规则,确定文本相关的类别。
自动文本分类的一般过程 (中文网页 )
待分类中 文网页
Outline
分类过程
概念 一般过程
构建分类器的方法
Rocchio方法 k-近邻法(k-Nearest Neighbor,kNN) 决策树 朴素Bayes (Naive Bayes) 支持向量机(support vector machine,SVM)
分类结果评估
评估指标 标准语料库
按信息内容区分 按获取方式区分 按存在方式区分 按传播范围区分
文献信息的分类方法
Dewey decimal system(杜威十进分类法) 首创于1876年,目前有 9个大类
the Library of Congress catalog(国会图书馆图书分类法) 1902年颁布,目前有21个大类
一般采用机器学习的方法进行自动文本分类。即:基于训练集的文本 自动分类
机器学习的基本模型 机器学习的目的:
根据给定的已知训练样本 求取对系统输入输出之间 依赖关系的估计,使它能够 对未知输出作出尽可能准确 的预测。
自动文档分类
从数学角度来看,文本分类是一个映射的过程,它 将未标明类别的文本映射到已有的类别中,该映射 可以是一对多的映射,因为通常一篇文本可以同多 个类别相关联。用数学公式表示如下:
数据挖掘
自动文本分类
陈靖宇 广东工业大学
2007
先简单回顾信息检索中的概念。。。。
词典: 向量空间模型(VSM)。。。 文本的表示。。。 词项的权重: {0,1}, tf*idf, 文本间相似度的计算。。。。
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义 的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有 “是”,“的”,“地”等。