当前位置:文档之家› 特征词选择算法及其与分类算法之间的关系(精)

特征词选择算法及其与分类算法之间的关系(精)

Ng Andrew$ Jordan: discriminative classifier比 generative classifier有更低的渐进错误率,但是 generative classifier能更快地收敛到最低错误;随着样 本数目的增多,discriminative classifer 的 performance会overtake generative classifier
Generative classifier learn a model of joint probability p(x,y),of the inputs x and the label y,and make their predictions by using Bayes rules to calculate p(y|x),and then picking the most likely label y
由此我们可以得出这样的结论: IG法,卡方法,虽然有抑制高 频词噪声和低频词噪声的能力,但是归根结底,这两种方法是 基于频率的经典统计推断,不能够有效抑制全部高频词噪声, 如果要提高特征词集合抑制高频词噪声的能力,可能要求诸于 贝叶斯统计推断。
评估分类器的效果(EFFECTIVENESS)(一)
DF、卡方、点对点互信息、信息增益法提 取特征词对比(一)
DF、卡方、点对点互信息、信息增益法提 取特征词对比(三)
一般结论: CHI,IG,和DF 的性能明显优于MI;CHI、 IG和DF的性能大体相当,都能够过滤掉80%以上的 特征项;DF具有算法简单、质量高的优点,可以用 来代替CHI和IG,但是同被广泛接受的信检索理论有 些矛盾。我们这里得出的结论,同文献(Yang et al .1997)使用普通英文文本评测的结果基本一致。
特征词选择算法(二)--无监督算法
DF:它指在整个数据集中有多少个文本包含这个单 词
单词贡献度:它认为一个单纯的重要性取决于它对整 个文本数据集相似性的贡献程度
特征词选择算法(三)基于信息论的方法
事件的互信息
集合的平均互信息
特征词选择算法(四)基于信息论的方法
Point-wise mi
预处理算法处理框架图
分类算法框架图
KNN算法
KNN文本分类算法又称为(k nearest neighhor)。它 是一种基于事例的学习方法,也称懒惰式学习方法。
它的大概思路是:对于某个待分类的样本点,在训练 集中找离它最近的k个样本点,并观察这k个样本点 所属类别。看这k个样本点中,那个类别出现的次数 多,则将这类别标签赋予该待分类的样本点。
有监督特征词选择算法:
特点:依赖于类别信息 具体方法有:信息增益(IG),卡方(Chi square),互信
息(point –wise MI),相对熵(KL Divergence)
无监督特征词选择算法:
特点:不依赖于类别信息 具体方法有:文档频率法(DF),单词贡献度(TC布和在出现了某个特定词的条 件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对 文本类别分布的影响也越大。熵的特征选择效果都要优于信息 增益(尚未验证)。
运算公式:
D(p//q)=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)为两个 概率分布
重要数据结构定义
typedef map <string,vector<pair<int,int> > > DICTIONARY;//定义字典数据结构
typedef map<pair<string,string>,pair<int,int> > CONTINGENCY;//定义关联表数据结构
几种常见的判别式模型
Linear discriminant analysis Support vector machines Boosting Conditional random fields Logistic regression Neural Networks
分类器的划分与文档模型划分之间的关系 (个人经验)
测试集中被分类为正例的数据数量。 查全率(recall) r=TP/(TP+FN)。 它的含义是:测试集中被正确分类的正例数量除以测试
集中实际正例数量。 F-score=2pr/(p+r)。 它是查准率和查全率的调和平均值。 F-score更接近于p,r两个数种
较小的那个
文本分类以及预处理代码实现
生成文档模型的时候,都没有考虑到词在文档中出现的 位置等因素
不同点:
可以理解为“权重”计算方式和表示方式不同 词袋模型的“权重”用概率表示,最后求出由词生成文
档的概率;VSM模型的“权重”,可以看做是tf,df的函 数映射
分类器的划分(一)
Generative classifier(产生式模型or 生成式模型)
可以这样考虑TP,FN,FP,TN的含义: TP(Truly Positve):是指那些分类为正例实际上也是正例的文章; FP(Falsely Postive):是指那些分类为正例但是实际上为负例的文章; FN(Falsely Negtive):是指那些分类为负例但是实际上为正例的文章; TN(Truly Negtive):是指那些分类为负例,实际上也为负例的文章。 查准率(precision)p=TP/(TP+FP)。它的含义是:测试集中被正确分类的正例数量除以
返回
文档模型(一)
Bag of words or bowl(词袋模型或者碗模型)
思想:
词与词之间的概率分布条件独立(在给定类别后每个词 的概率分布与其他词无关)
单词生成的概率与它在文档中的位置无关 每篇文档看作是一“袋子”的词
应用举例:
朴素贝叶斯模型
文档模型(二)
Vector Space Model[VSM](文档向量模型)
效果(effectiveness):这个术语来统称那些分类结果 质量的评价指标,包括正确率、召回率和F1值。
性能(performance):这个术语主要指的 是分类或 者IR系统的计算效率。
评估分类器的效果(EFFECTIVENESS)(二)
经常把分类问题(多分类问题)看成是二类问题(是否属于某个特定类别)。但针对某一 个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于 该类?如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就 有了 查准率,查全率,F-score等性能评估标准。分类器的混合矩阵:

{eventt
,
event t
}
Ev然ents后c {求eve上ntc,述eve两ntc}个事件集合的平均互信息
运算公式:
存在问题:
计算过程中考虑到了既不包含term t ,也不属于类别c的文档的 概率计算,可能会引进误差
特征词选择算法(六)基于信息论的方法
KLDivergence
Discriminative classifier (判别式模型)
Discriminative classifier model the posterior p(y|x) directly,or learn a direct map from inputs s to the class labels
NAVIGATING TO TEXT CATEGORIZATION
文本分类初探 作者:领头驴
ROAD OF MAP
特征词选择算法基础知识 几种特征词选择算法效果验证 文本分类以及预处理代码实现 程序调用
文本分类基础知识
分类问题(CATEGORIZATION)的两种模式
广义分类问题的两种定义
分类器的划分(三)
几种常见的产生式模型
Gaussian distribution Gaussian mixture model Multinomial distribution Hidden Markov model Naive Bayes AODE Latent Dirichlet allocation
思想:
利用向量空间模型进行文本分类的主要思路基于邻近假 设
邻近假设:同一类文档在N维向量空间中会构成一个邻近 区域,而不同类的邻近区域之间是互不重叠的
该模型将每个文档看成是一个N维向量
应用:
KNN,LR,SVM
两种文档模型的对比
相同点:
从词的粒度上来讲,都没有考虑词语概率分布与其他词 语概率分布之间的相关性(即:都做了独立性假设)
VSM 模型:一般用在判别式分类模型中,如LR(对 数回归),SVM(支持向量机)
词袋子模型:一般用在生成式分类模型中,如朴素贝 叶斯词袋子模型也可以用在判别式模型中
模型的参数估计:EM算法(missing data likelihood)
特征词选择算法(一)
回顾文本分类的两种模式
分类器的划分(二)
仁者见仁,智者见智
Vapnik: One should solve the [classification] problem directly, and never solve a more general problem as an intermediate step[such as modeling p(x|y)]
基本思想:
计算每个词t,与类别c之间的互信息
运算公式:
存在问题:倾向于选择稀疏词(先给出结论,稍后会有 实验结果展示)
特征词选择算法(五)基于信息论的方法
Information Gain(IG,信息增益熵,平均互信息)
基本思想:将单词和类别出现的情况看做是事件集合,
相关主题