当前位置:文档之家› 基于朴素贝叶斯的文本分类

基于朴素贝叶斯的文本分类


1 文本 分 类
在文本分类 系统中, 我们使用的文本都是非结构
化 的 自然 文 本 , 因此 要 对这 些 文 本 进 行 预处 理 , 提 取
然后将特征根据权重 由大到小排序 , 根据 向量 的维数
选择排序后前面的特征 。各特征权重的计算具体方 法为 :
1 . 2 . 1特 征预 处理
朴 素 贝叶斯 分类 器是 一 种最 常见 且 原理 简单 , 实
个 向量 表示 出来 ,那 么文 本 是一 个 m个 词 条 组 成
际应用很成功的方法 。 朴素贝叶斯分类器 中的“ 朴素” 主要是指假设各属性间相互独立 , 每个节点只与类节 点关联。朴素贝叶斯分类器简单高效 , 适合属性较多 的模型。将朴素贝叶斯方法应用在文本分类中, 通过 对训练文本的学习,得到 了根节点和各属性节点 , 以 及 网络 中的参数。进而使用该 网络对文本进行分类 , 得到 了比较好 的结果。
s a t i s f a c t o r y r e s u l t i s a c h i e v e d . Ke y wo r d s : n a i v e b a y e s i a n, c l a s s i i f e r , t e x t c a t e g o r i z a t i o n , f e a t u r e
Ab s t r a c t :Na i v e B a y e s i a n i s a me t h o d u s e d i n u n c e r t a i n t y i n f e r e n c e . i t i s s i mp l e , b u t v e r y s t r o n g

5 8 ・
( 总0 9 4 8 )
基于朴素贝叶斯的文本分类
2 0 1 3 年第 1 2 期
能” 这 些词 , 我们 或 多 或少 地 能 了解 网页 的主 题 。如
果看到“ 应用” 、 “ 希望” 等词语 , 对主题基本上还是一 无所知 。因此 , 去掉这些通用词 , 这一步可 以采用半
高分辨的特征。这样不仅降低了工作的复杂度 , 同时 去掉一些模糊的特征 , 提高了分类的精度 。 1 . 1 文本表示 用 向量空 间表示文本 , 将训练文本分词后 , 文本
①去掉停用词 、 连词 , “ 的” “ 地” “ 得” “ 和” “ 与” 等;
②同义词合并 , 我们采用《 同义词词林》 中的同义
的集合 ( 。 , , …, W ) 。
1 . 2 特 征选 择
由于文本无结构化的特点 , 使得用向量表示文本 时会达到几万维甚至几十万维 , 向量表示文本并不是 特征越多越好 , 有一些特征 的加入反而降低了分类的 效果。为了降低向量的维数 , 因此我们要采用一些高 分辨度的特征 , 去掉不必要 的特征。我们采用特征加 权重 的方法 , 权重表示该特征在分类上 的贡献大小 ,
a p p l i c a b i l i t y . T h i s a r t i c l e u s e s Na i v e B a y e s i a n i n t e x t c a t e g o i r z a t i o n . On t h e b a s i s o f t h e t r a d i t i o n a l t e x t c a t e g o i r z a t i o n me t h o d , t h i s p a p e r i mp r o v e me t h o d o f c h o i c e o f t e x t c h a r a c t e is r t i c . T h r o u g h t h e e x p e ime r n t ,
摘ቤተ መጻሕፍቲ ባይዱ
要: 朴素贝叶斯是一种用于不确定性推理的方法 , 其原理简单 , 但是适用性却很强。 将朴素贝叶斯用在文本分类
中。在传统 的文本分类方法的基础上 , 对文本特征的选择做了改进 , 通 过实验 , 达 到了比较满意的效果 。
关键词 : 朴素 贝叶斯 , 分类 器 , 文本分类 , 特征 中图分类号 : T P 3 9 1 文献标识码 : A
Te x t Ca t e g o r i z a t i o n Ba s e d o n Na i v e Ba y e s i a n
J I AN Xi a o - y a n, C UI C a i - x i a
( D e p a r t m e n t o fC o m p u t e r S c i e n c e , T a i y u a n N o r m a l C o l l e g e , T a i y u a n 0 3 0 0 1 2 , C h i n a )
第2 6 卷
第l 2期
电 脑 开 发 与 应 用
( 总0 9 4 7 )
・ 5 7 ・
文章 编号 : 1 0 0 3 — 5 8 5 0 ( 2 0 1 3 l 1 2 — 0 0 5 7 — 0 2
基于朴素贝叶斯的文本分类
菅小艳 , 崔彩 霞
( 太原师范学院计算机系 , 太原 0 3 0 0 1 2 )
词, 将同义词合并为一个特征; ③去掉通用词 , 在汉语 中 , 看到“ 贝叶斯 ” 、 “ 原子
中的每个词条表示 向量 中的一维 , 一个文本就能用一
收稿 日期 : 2 0 1 3 — 1 0 — 1 3 。 修 回 日期 : 2 0 1 3 — 1 1 - 1 0
¥ 作者简 介 : 菅小孢, 女, 1 9 7 5 年出生, 讲师 , 硕士研究生, 研究方向: 机器学习, 自 然语言 攻 理。
相关主题