当前位置：文档之家› 特征词选择算法及其与分类算法之间的关系(精)

特征词选择算法及其与分类算法之间的关系(精)

Ng Andrew$ Jordan: discriminative classifier比 generative classifier有更低的渐进错误率，但是 generative classifier能更快地收敛到最低错误；随着样本数目的增多，discriminative classifer 的 performance会overtake generative classifier
Generative classifier learn a model of joint probability p(x,y),of the inputs x and the label y,and make their predictions by using Bayes rules to calculate p(y|x),and then picking the most likely label y
由此我们可以得出这样的结论： IG法，卡方法，虽然有抑制高频词噪声和低频词噪声的能力，但是归根结底，这两种方法是基于频率的经典统计推断，不能够有效抑制全部高频词噪声，如果要提高特征词集合抑制高频词噪声的能力，可能要求诸于贝叶斯统计推断。
评估分类器的效果（EFFECTIVENESS）(一)
DF、卡方、点对点互信息、信息增益法提取特征词对比（一）
DF、卡方、点对点互信息、信息增益法提取特征词对比（三）
一般结论： CHI,IG,和DF 的性能明显优于MI;CHI、 IG和DF的性能大体相当，都能够过滤掉80%以上的特征项；DF具有算法简单、质量高的优点，可以用来代替CHI和IG,但是同被广泛接受的信检索理论有些矛盾。我们这里得出的结论，同文献（Yang et al .1997）使用普通英文文本评测的结果基本一致。
特征词选择算法（二）--无监督算法
DF：它指在整个数据集中有多少个文本包含这个单词
单词贡献度：它认为一个单纯的重要性取决于它对整个文本数据集相似性的贡献程度
特征词选择算法（三）基于信息论的方法
事件的互信息
集合的平均互信息
特征词选择算法（四）基于信息论的方法
Point-wise mi
预处理算法处理框架图
分类算法框架图
KNN算法
KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法，也称懒惰式学习方法。
它的大概思路是：对于某个待分类的样本点，在训练集中找离它最近的k个样本点，并观察这k个样本点所属类别。看这k个样本点中，那个类别出现的次数多，则将这类别标签赋予该待分类的样本点。
有监督特征词选择算法：
特点：依赖于类别信息具体方法有：信息增益（IG），卡方(Chi square),互信
息（point –wise MI）,相对熵（KL Divergence）
无监督特征词选择算法：
特点：不依赖于类别信息具体方法有：文档频率法（DF），单词贡献度（TC布和在出现了某个特定词的条件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益（尚未验证）。
运算公式：
D（p//q）=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)为两个概率分布
重要数据结构定义
typedef map <string,vector<pair<int,int> > > DICTIONARY;//定义字典数据结构
typedef map<pair<string,string>,pair<int,int> > CONTINGENCY;//定义关联表数据结构
几种常见的判别式模型
Linear discriminant analysis Support vector machines Boosting Conditional random fields Logistic regression Neural Networks
分类器的划分与文档模型划分之间的关系（个人经验）
测试集中被分类为正例的数据数量。查全率(recall) r=TP/(TP+FN)。它的含义是：测试集中被正确分类的正例数量除以测试
集中实际正例数量。 F-score=2pr/(p+r)。它是查准率和查全率的调和平均值。 F-score更接近于p,r两个数种
较小的那个
文本分类以及预处理代码实现
生成文档模型的时候，都没有考虑到词在文档中出现的位置等因素
不同点：
可以理解为“权重”计算方式和表示方式不同词袋模型的“权重”用概率表示，最后求出由词生成文
档的概率；VSM模型的“权重”，可以看做是tf,df的函数映射
分类器的划分(一)
Generative classifier(产生式模型or 生成式模型)
可以这样考虑TP,FN,FP,TN的含义： TP（Truly Positve）：是指那些分类为正例实际上也是正例的文章； FP（Falsely Postive）：是指那些分类为正例但是实际上为负例的文章； FN（Falsely Negtive）：是指那些分类为负例但是实际上为正例的文章； TN（Truly Negtive）:是指那些分类为负例，实际上也为负例的文章。查准率（precision）p=TP/(TP+FP)。它的含义是：测试集中被正确分类的正例数量除以
返回
文档模型（一）
Bag of words or bowl(词袋模型或者碗模型)
思想：
词与词之间的概率分布条件独立（在给定类别后每个词的概率分布与其他词无关）
单词生成的概率与它在文档中的位置无关每篇文档看作是一“袋子”的词
应用举例：
朴素贝叶斯模型
文档模型（二）
Vector Space Model[VSM]（文档向量模型）
效果(effectiveness):这个术语来统称那些分类结果质量的评价指标，包括正确率、召回率和F1值。
性能（performance):这个术语主要指的是分类或者IR系统的计算效率。
评估分类器的效果（EFFECTIVENESS）(二)
经常把分类问题（多分类问题）看成是二类问题（是否属于某个特定类别）。但针对某一个具体类别来说，我们又可以这样考虑：即有多少篇文章属于该类？有多少篇文章不属于该类？如果将属于该类的文章定义为“正例”，不属于该类别的文章定义为负例，那么就有了查准率，查全率，F-score等性能评估标准。分类器的混合矩阵：

{eventt
,
event t
}
Ev然ents后c {求eve上ntc,述eve两ntc}个事件集合的平均互信息
运算公式：
存在问题：
计算过程中考虑到了既不包含term t ，也不属于类别c的文档的概率计算，可能会引进误差
特征词选择算法（六）基于信息论的方法
KLDivergence
Discriminative classifier （判别式模型）
Discriminative classifier model the posterior p(y|x) directly,or learn a direct map from inputs s to the class labels
NAVIGATING TO TEXT CATEGORIZATION
文本分类初探作者：领头驴
ROAD OF MAP
特征词选择算法基础知识几种特征词选择算法效果验证文本分类以及预处理代码实现程序调用
文本分类基础知识
分类问题(CATEGORIZATION)的两种模式
广义分类问题的两种定义
分类器的划分（三）
几种常见的产生式模型
Gaussian distribution Gaussian mixture model Multinomial distribution Hidden Markov model Naive Bayes AODE Latent Dirichlet allocation
思想：
利用向量空间模型进行文本分类的主要思路基于邻近假设
邻近假设：同一类文档在N维向量空间中会构成一个邻近区域，而不同类的邻近区域之间是互不重叠的
该模型将每个文档看成是一个N维向量
应用：
KNN，LR,SVM
两种文档模型的对比
相同点：
从词的粒度上来讲，都没有考虑词语概率分布与其他词语概率分布之间的相关性（即：都做了独立性假设）
VSM 模型：一般用在判别式分类模型中，如LR（对数回归），SVM（支持向量机）
词袋子模型：一般用在生成式分类模型中，如朴素贝叶斯词袋子模型也可以用在判别式模型中
模型的参数估计：EM算法（missing data likelihood）
特征词选择算法（一）
回顾文本分类的两种模式
分类器的划分（二）
仁者见仁，智者见智
Vapnik: One should solve the [classification] problem directly, and never solve a more general problem as an intermediate step[such as modeling p(x|y)]
基本思想：
计算每个词t,与类别c之间的互信息
运算公式：
存在问题：倾向于选择稀疏词（先给出结论，稍后会有实验结果展示）
特征词选择算法（五）基于信息论的方法
Information Gain(IG,信息增益熵，平均互信息)
基本思想：将单词和类别出现的情况看做是事件集合，

e商务文档

特征词选择算法及其与分类算法之间的关系(精)

相关文档推荐：