当前位置：文档之家› 基于贝叶斯的文本分类方法

基于贝叶斯的文本分类方法

sian factor)： 12 = | 1 )* | 2 。
1.1 朴素贝叶斯方法
设训练样本集分为类，记为 ={ 1, 2,…, }，则每个类
的先验概率为，=1,2,…, ，其值为类的样本数除以
训练集总样本数。对于新样本，其属于类的条件概率是
| =arg max{ | * }，=1,2,…,
(5)
文档由其包含的特征词表示，即 = ( 1, 2,…, ,…, )，
是的特征词个数| |, 是第个特征词，由特征独立性假设，得
| = 1, 2,…, | =
|
(6)
=1
式中： | 表示分类器预测单词在类的文档中发生的
概率。因此式 (2) 可转换为
| )。根据贝叶斯定理，类的后验概率为
|: |= |
/
(1)
对于所有类均为常数，可以忽略，则式 (1) 简化为
|∝ | *
(2)
为避免等于 0，采用拉普阿斯概率估计
=(1+| * |)/(| |+| * |)
(3)
式中：| |— — 训练集中类的数目，| * |— — 训练集中属于类的文档数，| * |— — 训练集包含的总文档数。在特殊情况下，训练样本集中各类样本数相等，此时类的先验概率相等，式(2) 可以简化
词频法是最简单的一种技术，其缺点也显而易见：在信息研究中，往往低频词对文档分类的贡献比高频词大得多；高频词同时出现在不同类的概率也较大。这是相当朴素的一种方法，应用较少。 2.2 互信息 (mutual information)
|∝ *
|
(7)
=1
为了避免式 (7) 中的 | 等于 0，可以采用拉普拉斯概
率估计。
1.2 改进后的贝叶斯方法：基于多项式考虑到文本属性之间非独立，容易导致高维空间里建模
难度的增大。朴素贝叶斯方法利用属性之间强独立性的假设
本 D 下，某一模型 M 的后验概率与 M 的先验概率和似然函数的乘积成比例，因而模型选择问题可以表示成下面的优
化问题
arg max
| = arg max
|
贝叶斯方法下的模型选择通过选取适当的模型先验分布
P (M)，可以将人类专家的知识和给定的样本数据中提供的信
2.1 词频法文档频率(document frequency，DF)只的是词条出现在文档
中的数目。该方法基于这样一个假设：高于某个阈值的词称之为高频词，反之称为低频词，选择高频词作为表征该文档的特征。
来简化模型，从而达到降低学习复杂性的目的。
除了假设属性之间强独立性之外，还可以通过引用隐含
变量的方法来简化属性之间的联系，这样可使得多个测量变
量相对于中间变量独立，从而简化了模型。当然，隐含变量值
在多项式模型中，假设每个文档与每个类的概率服从多
项式分布，与文档的其它属性没关系。
设表示带有类别标注的训练集，| |表示了训练文集中的文档数目，表示特征集。则，出现在类文档中的
概率为
1+ *
|=
=1
+
*
=1 =1
Way of text classification based on Bayes
LUO Hai-fei, WU Gang, YANG Jin-sheng (School of Software Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
作考虑。在一篇文档出现 10 次的词条和出现一次的词条对
文档分类贡献不能同日而语。在我们的改进算法中应该包
括此项。
词语权重的计算需要考虑以下几个因素：
－ 4747 －
(1) 词语频率(tf)：词条在文档中出现代的概率。 (2) 词语倒排文档频率 (idf)：该词语在文档集合中分布情
Abstract：Two important factors in text classification are discussed— algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved. Key words：text classification; feature abstraction; Bayes; polynomial; statistic
布、二项式分布、泊松分布等。我们可以选取其中之一作为文
本各属性的分布规律。在各个领域中，这些分布都获得了很
好的统计效果，因而我们不妨引用之。在本文中，引入多项
式模型。
0引言
常见的分类器有简单向量距离、KNN、神经网络、贝叶斯分类器等。其 [1,3] 中贝叶斯分类器是基于贝叶斯学习方法的分类器，其原理虽然较简单，但是其在实际应用中很成功。贝叶斯算法有一个很重要的假设，就是很强的属性间条件独立[2 ， ,3] 而事实上属性之间独立性很弱，为了弥补该假设的不足，在本文提出了一种基于多项式分布的贝叶斯方法。
收稿日期：2005-11-22。作者简介：罗海飞 (1979－)，男，湖北武汉人，硕士，研究方向为嵌入式；吴刚，男，教授，研究方向为操作系统；杨金生，男，副教授，研究方向为操作系统。
－ 4746 －
|∝ |
(4)
朴素贝叶斯分类器将未知样本归于类的依据，如下
2 特征抽取
构成文本的词汇，数量是相当大的，因此，表示文本的向
量空间的维数也相当大，可以达到几万维，因此我们需要进行维数压缩的工作，这样做的目的主要有两个：
(1) 为了提高程序的效率，提高运行速度； (2) 所有几万个词汇对文本分类的意义是不同的，一些通用的、各个类别都普遍存在的词汇对分类的贡献小，在某特定类中出现比重大而在其它类中出现比重小的词汇对文本分类的贡献大，为了提高分类精度，对于每一类，我们应去除那些表现力不强的词汇，筛选出针对该类的特征项集合，如下存在多种筛选特征项的算法。
× ++
2
++
其中：N——文档总数，c—— 某一特定的类别，t——特定的
词条，A—— 属于 c 类且包含 t 的文档频数，B——不属于 c
类但是包含 t 的文档频数，C——属于 c 但是不包含 t 的文
档频数，D——既不包含 t 也不属于 c 类的文档频数。
式中： —— 文档在中出现的次数， | —— 在训练集
中文档属于类别的概率。
设是带分类的测试文档集，根据贝叶斯定理，每个文档
属于的概率为 |= *
式中：
|=
=1
= =1
*| | /| |
如果 = arg max
=
*|
=1
| ，将文档划归到类中，就完成了
对文档的分类作用。
类的条件概率， ——语料中不包含词条的文档的概率，
| ——文档不包含词条是属于的条件概率， ——类别数。
2.5 改进后的 CHI：增加权重
分析 CHI、MI、IG 算法，我们可以知道：词条和文档之间
的关系只是通过于词条的权重未
文本特征的提取有词频法、互信息、CHI 统计、信息增量表示等方法。 [4~9] 本文分析了上述方法的优缺点，进而提出了一种该进型的 CHI。
1 贝叶斯方法
模型选择问题可以表述为在给定的数据样本和相关参数
信息的条件下，寻求具有最大后验概率的模型。在给定的样
第 27 卷第 24 期 Vol. 27 No. 24

e商务文档

基于贝叶斯的文本分类方法

相关文档推荐：