基于贝叶斯的文本分类方法
sian factor): 12 = | 1 )* | 2 。
1.1 朴 素 贝 叶 斯 方 法
设训练样本集分为 类,记为 ={ 1, 2,…, },则每个类
的 先验 概率 为 ,=1,2,…, ,其 值为 类 的样 本数 除以
训练 集总 样本 数 。对于 新样 本 ,其 属于 类 的条 件概 率是
| =arg max{ | * },=1,2,…,
(5)
文档 由其包含的特征词表示,即 = ( 1, 2,…, ,…, ),
是 的特征词个数| |, 是第 个特征词,由特征独立性假设,得
| = 1, 2,…, | =
|
(6)
=1
式中: | 表示分类器预测单词 在类 的文档中发生的
概 率 。 因 此 式 (2) 可 转 换 为
| )。 根据贝叶斯定理, 类的后验概率为
|: |= |
/
(1)
对 于 所 有 类 均 为 常 数 ,可 以 忽 略 ,则 式 (1) 简 化 为
|∝ | *
(2)
为避免 等于 0,采用拉普阿斯概率估计
=(1+| * |)/(| |+| * |)
(3)
式中:| |— — 训练集中类的数目,| * |— — 训练集中属于类 的文档数,| * |— — 训练集包含的总文档数。在特殊情况下, 训练样本集中各类样本数相等,此时类的先验概率相等,式(2) 可以简化
词频法是最简单的一种技术,其缺点也显而易见:在信息 研 究 中 ,往 往 低 频 词 对 文 档 分 类 的 贡 献 比 高 频 词 大 得 多 ;高 频 词 同 时 出 现 在 不 同 类 的 概 率 也 较 大 。这 是 相 当 朴 素 的 一 种 方 法 ,应 用 较 少 。 2.2 互 信 息 (mutual information)
|∝ *
|
(7)
=1
为了避免式 (7) 中的 | 等于 0,可以采用拉普拉斯概
率估计。
1.2 改 进 后 的 贝 叶 斯方 法 : 基 于 多 项 式 考 虑 到 文 本 属 性 之 间 非 独 立 ,容 易 导 致 高 维 空 间 里 建 模
难 度 的 增 大 。朴 素 贝 叶 斯 方 法 利 用 属 性 之 间 强 独 立 性 的 假 设
本 D 下,某一模型 M 的后验概率与 M 的先验概率和似然函 数的乘积成比例,因而模型选择问题可以表示成下面的优
化问题
arg max
| = arg max
|
贝叶斯方法下的模型选择通过选取适当的模型先验分布
P (M),可 以 将 人 类 专 家 的 知 识 和 给 定 的 样 本 数 据 中 提 供 的 信
2.1 词 频 法 文档频率(document frequency,DF)只的是词条出现在文档
中 的 数 目 。 该 方 法 基 于 这 样 一 个 假 设 :高 于 某 个 阈 值 的 词 称 之 为 高 频 词 ,反 之 称 为 低 频 词 ,选 择 高 频 词 作 为 表 征 该 文 档 的特征。
来 简 化 模 型 ,从 而 达 到 降 低 学 习 复 杂 性 的 目 的 。
除 了 假 设 属 性 之 间 强 独 立 性 之 外 ,还 可 以 通 过 引 用 隐 含
变 量 的 方 法 来 简 化 属 性 之 间 的 联 系 ,这 样 可 使 得 多 个 测 量 变
量 相 对 于 中 间 变 量 独 立 ,从 而 简 化 了 模 型 。当 然 ,隐 含 变 量 值
在 多 项 式 模 型 中 ,假 设 每 个 文 档 与 每 个 类 的 概 率 服 从 多
项 式 分 布 ,与 文 档 的 其 它 属 性 没 关 系 。
设 表示带有 类别标注的训练 集,| |表 示了训练文集 中 的文档数目, 表示特征集。则, 出现 在类文档中的
概率为
1+ *
|=
=1
+
*
=1 =1
Way of text classification based on Bayes
LUO Hai-fei, WU Gang, YANG Jin-sheng (School of Software Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
作考虑。在一篇文档出现 10 次的词条和出现一次的词条对
文档分类贡献不能同日而语。在我们的改进算法中应该包
括此项。
词语权重的计算需要考虑以下几个因素:
- 4747 -
(1) 词语频率(tf):词条在文档中出现代的概率。 (2) 词语倒排文档频率 (idf):该词语在文档集合中分布情
Abstract:Two important factors in text classification are discussed— algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved. Key words:text classification; feature abstraction; Bayes; polynomial; statistic
布 、二 项 式 分 布 、泊 松 分 布 等 。我 们 可 以 选 取 其 中 之 一 作 为 文
本 各 属 性 的 分 布 规 律 。 在 各 个 领 域 中 ,这 些 分 布 都 获 得 了 很
好 的 统 计 效 果 ,因 而 我 们 不 妨 引 用 之 。 在 本 文 中 ,引 入 多 项
式模型。
0引 言
常 见 的 分 类 器 有 简 单 向 量 距 离 、KNN、神 经 网 络 、贝 叶 斯 分类器等 。其 [1,3] 中贝叶斯分类器是基于贝叶斯学习方法的分 类 器 ,其 原 理 虽 然 较 简 单 ,但 是 其 在 实 际 应 用 中 很 成 功 。贝 叶 斯算法有一个很重要的假设,就是很强的属性间条件独立[2 , ,3] 而事实上属性之间独立性很弱,为了弥补该假设的不足,在本 文提出了一种基于多项式分布的贝叶斯方法。
收稿日期:2005-11-22。 作者简介:罗海飞 (1979-),男,湖北武汉人,硕士,研究方向为嵌入式; 吴刚,男,教授,研究方向为操作系统; 杨金生,男,副教授,研 究方向为操作系统。
- 4746 -
|∝ |
(4)
朴 素 贝 叶 斯 分 类 器 将 未 知 样 本 归 于 类 的 依 据 ,如 下
2 特征抽取
构 成 文 本 的 词 汇 ,数 量 是 相 当 大 的 ,因 此 ,表 示 文 本 的 向
量空间的维数也相当大,可以达到几万维,因此我们需要进行 维 数 压 缩 的 工 作 ,这 样 做 的 目 的 主 要 有 两 个 :
(1) 为 了 提 高 程 序 的 效 率 ,提 高 运 行 速 度 ; (2) 所 有 几 万 个 词 汇 对 文 本 分 类 的 意 义 是 不 同 的 ,一 些 通 用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定 类中出现比重大而在其它类中出现比重小的词汇对文本分类 的 贡 献 大 ,为 了 提 高 分 类 精 度 ,对 于 每 一 类 ,我 们 应 去 除 那 些 表现力不强的词汇,筛选出针对该类的特征项集合,如下存在 多种筛选特征项的算法。
× ++
2
++
其中 :N——文 档总 数,c—— 某一 特定 的类 别,t——特 定的
词条 ,A—— 属 于 c 类 且 包 含 t 的 文档 频 数 ,B——不 属 于 c
类但 是 包 含 t 的 文档 频 数 ,C——属 于 c 但 是 不 包 含 t 的 文
档频 数 ,D——既 不 包 含 t 也 不属 于 c 类 的 文 档 频 数。
式 中 : —— 文 档 在 中 出 现 的 次 数 , | —— 在 训 练 集
中文档 属于类别 的概率。
设 是带分类的测试文档集,根据贝叶斯定理,每个文档
属于 的概率为 |= *
式中:
|=
=1
= =1
*| | /| |
如果 = arg max
=
*|
=1
| ,将文档 划归到 类中,就完成了
对文档 的分类作用。
类的条 件概率, ——语料 中不包 含词条 的文档 的概率 ,
| ——文档不包含词条是属于 的条件概率, ——类别数。
2.5 改 进 后 的 CHI: 增加 权 重
分析 CHI、MI、IG 算 法,我们 可以知道:词条和文档之间
的 关 系 只 是 通 过 于 词 条 的 权 重 未
文本特征的提取有词频法、互信息、CHI 统计、信息增量 表示等方法 。 [4~9] 本文分析了上述方法的优缺点,进而提出了 一种该进型的 CHI。
1 贝叶斯方法
模型选择问题可以表述为在给定的数据样本和相关参数
信 息 的 条 件 下 ,寻 求 具 有 最 大 后 验 概 率 的 模 型 。 在 给 定 的 样
第 27 卷 第 24 期 Vol. 27 No. 24