当前位置:文档之家› 文本自动分类聚类技术

文本自动分类聚类技术


评价指标
所有类的总体评价
宏平均 Macro
微平均
分类算法
分类技术发展
分类算法
决策树(Decision Trees)
KNN算法(K-Nearest Neighbour) 支持向量机(SVM) 贝叶斯网络(Bayes Network) 神经网络(Neural Networks) Association rule-based Boosting
小结
自动分类的概念 分类效果的评价
特征选择
文档频率法(DF, document frequency ) 信息增益法(information gain) 互信息法(mutual information) The χ2 test(chi-square)
分类算法
KNN SVM
Japan Ministry Says Open Farm Trade Would Hit U.S.
Unfavourable Replacing “B” Shares
Jardine Vieille Montagne Matheson Said It Sets Says 1986 Two-for-Five Conditions Bonus Issue
文本自动聚类技术
什么是聚类分析?
聚类(簇 Cluster): 数据对象的集合 在同一个类中,数据对象是相似的 不同类之间的对象是不相似的 聚类分析 一个数据集合分组成几个聚类
聚类是一种无监督分类:没有预定义的类 典型应用 作为一个独立的工具透视数据分布 可以作为其他算法的预处理步骤
Amatil Proposes Two-forFive Bonus Share Issue AnheuserBusch Joins Bid for San Miguel
Citibank Norway Unit Loses Six Mln Crowns in 1986 Italy’s La Fondiaria to Report Higher 1986 Profits
headline(标题) of the news story. We’ll represent categories using colors.
(All examples with the same color belong
to the same category.)
人工标注的样例
政府事务 企业个人事务
自动分类算法分类
Rocchio方法
可以认为类中心向量法是它的特例
Rocchio公式
分类
决策树方法
构造决策树
CART C4.5 (由ID3发展而来) CHAID
决策树的剪枝(pruning)
决策树方法
Attribute Selection Measure: Information Gain(ID3/C4.5)
Attribute Selection Measure: Information Gain(ID3/C4.5)
entropy of attribute A with values {a1,a2,…,av}
information gained by branching on
attribute A
专家系统
美国人口调查局(1990)
十年人口统计资料的分析(2200万项资料) 232 产业类别和504行业类别 $15 million if fully done by hand Expert System AIOCS Development time: 192 person-months (2 people, 8 years) Accuracy = 47%
Given: Collection of example news stories already labeled with a category (topic).
Task: Predict category for news stories not yet labeled.
For our example, we’ll only get to see the
人工方法和自动方法
人工方法
结果容易理解
费时费力 难以保证一致性和准确性(40%左右的 准确率) 专家有时候凭空想象 知识工程的方法建立专家系统(80年代末期 )
自动的方法(学习)
•足球 and 联赛 体育类
结果可能不易理解 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高
看见标题
Senate Panel Studies Loan Rate, Set Aside Plans
得到分类:政府事务
Senate Panel Studies Loan Rate, Set Aside Plans
评价指标
评价指标
「准确率」(P, precision)
「召回率」(R, recall) F-Measure
Select the attribute with the highest information gain S contains si tuples of class Ci for i = {1, …, m} information measures info required to classify any arbitrary tuple
其中,A为待分类的文本集合, B为分类体系中的类别集合
应用领域
门户网站(网页)
图书馆(电子资料) 情报/信息部门(情报处理) 政府、企业等(电子邮件)
自动分类的优点
减小人工分类的繁杂工作
提高信息处理的效率
减小人工分类的主观性
文本自动分类训练集中得出分类模型(需要测试 过程,不断细化) 用训练获得出的分类模型对其它文档 加以分类
文本挖掘技术
文本自动分类技术
知识的组织
知识的结构问题和知识是孪生的
分类体系
结构本身也是知识
杜威十进制系统(图书分类), 国会图书馆的目录, AMS(美国数学会)的数学知识体系 , 美国专利内容的类别体系 Yahoo,搜狐 & Dmoz(Open Directory )
Web catalogs
Gain(A) = I(s 1,s 2,...,sm)− E(A) 选择信息增益最大的属性作为判定的分支节 点
其他分类方法
Regression based on Least Squares Fit (1991) Nearest Neighbor Classification (1992) * Bayesian Probabilistic Models (1992) * Symbolic Rule Induction (1994) Decision Tree (1994) * Neural Networks (1995) Rocchio approach (traditional IR, 1996) * Support Vector Machines (1997) Boosting or Bagging (1997)* Hierarchical Language Modeling (1998) First-Order-Logic Rule Induction (1999) Maximum Entropy (1999) Hidden Markov Models (1999) Error-Correcting Output Coding (1999) ......
MEDLINE (National Library of Medicine)
$2 million/year for manual indexing of journal articles using MEdical Subject Headings (18,000 categories)
人工定义规则
基于机器学习的方法
最近邻分类方法 (Creecy ’92: 1-NN) Development time: 4 person-months Accuracy = 60%
统计学习取代知识工程
分类技术发展
A Text Categorization Example
新闻自动分类
Senator Bowater Isuzu Plans Defends U.S. Industries No Interim Mandatory Profit Farm Control Dividend Exceed Bill Expectations
什么没看到之前
能给一个新闻赋予什么颜色?
分类预测: ? 取多数?
城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;
地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;
文本聚类
Document Clustering (DC) is partitioning a set of documents into groups or clusters Clusters should be computed to Contain similar documents Separate as much as possible different documents For instance, if similarity between documents is defined to capture semantic relatedness, documents in a clustershould deal with the same topics, and topics in each cluster should be different
评价指标
每个类 Precision=a/(a+b) Recall=a/(a+c), miss rate=1-recall accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy fallout=b/(b+d)=false alarm rate, F=(β2+1)p.r/(β2p+r) Break Even Point, BEP, p=r的点 interpolated 11 point average precision(pr曲线)
相关主题