当前位置:文档之家› 朴素贝叶斯在文本分类上的应用

朴素贝叶斯在文本分类上的应用


第二事件袁P2渊x袁0袁0袁t冤袁P2忆渊0袁0袁0袁t忆冤.则根据洛伦兹变换袁我 们有 x=酌ut忆袁t=酌t忆遥 在 撞 系中看到 t 时刻第 n 个波峰通过渊x袁
0袁0冤点袁则此时该电磁波通过 撞 系原点的周期数为 n+淄xcos兹/c袁
也就是院
n+
淄xcos兹 c
=淄t寅淄=
酌渊1-
淄忆 u c
中文语言中存在一些没有意义的词袁 准确的说是对分类
没有意义的词袁例如语气词尧助词尧量词等等袁去除这些词有利 于去掉一些分类时的噪音信息袁同时对降低文本向量的维度袁 提高文本分类的速度也有一定的帮助遥
2.3 文本向量的表示
文本向量的表示是将非结构化数据转换成结构化数据的
一个重要步骤袁在这一步骤中袁我们使用一个个向量来表示文 本的内容袁常见的文本表示方法主要有以下几种方法院 2.3.1 TF 模型
cos兹冤
渊5冤
这就是光的多普勒效应[2]袁如果 淄忆是该电磁波的固有频率
的话袁从式渊5冤可以看出袁两参考系相向运动时袁撞 系中看到的
光的频率会变大袁也就是发生了蓝移曰反之袁撞 系中看到的光
的频率会变小袁也就是发生了红移曰兹=90毅时袁只要两惯性系有
相对运动袁也可看到光的红移现象袁这就是光的横向多普勒效
TF 模型的特点是模型假设文档中出现频次越高的词对
刻画文档信息所起的作用越大袁但是 TF 有一个缺点袁就是不 考虑不同词对区分不同文档的不同贡献遥 有一些词尽管在文 档中出现的次数较少袁 但是有可能是分类过程中十分重要的 特征袁有一些词尽管会经常出现在众多的文档中袁但是可能对 分类任务没有太大的帮助遥 于是基于 TF 模型袁存在一个改进 的 TF-IDF 模型遥 2.3.2 TF-IDF 模型
既考虑到词出现的频率袁也考虑到词的稀缺程度遥 对于那些出
现次数越高且出现的文档数越少的词袁tf-idf 值越大袁 在一定
其中袁tf-idf渊t冤表示词 t 的 tf-idf 值袁词 t 的逆文档频率院
idf渊t冤=
log渊n+1冤 df渊t冤+1
+1
词 t 的文档频率 df渊t冤是指文档集中出现了词 t 的文档数
量袁n 表示所有的文档数袁词的逆文档频率刻画的是在词在文
档的稀缺程度遥 稀缺程度越高袁idf渊t冤越高遥 可以看出 tf-idf 值
参考文献 [1]肖志俊.对麦克斯韦方程组的探君.光多普勒效应及应用[J].现代物理知识袁2003渊4冤院14~15.
收稿日期:2018-12-17
2019 年 1 月
论述 245
的文档在整个文档集中的频次信息遥 计算公式如下院
tf-idf渊t冤=tf渊t袁d冤窑idf渊t冤
应袁这是声学多普勒效应中没有的现象袁其本质为狭义相对论
中的时间变缓遥
3 结语
在本文中袁通过对狭义相对论的研究袁最终得到了光的多 普勒效应的表达式袁并通过与声学多普勒效应的对比研究袁理 解了声学多普勒效应和光学多普勒效应的异同遥 当限定条件 为低速运动时袁我们可以在经典物理学的框架下研究问题袁比 如声学多普勒效应袁但如果要研究高速运动的光波袁我们就需 要在狭义相对论的框架下研究问题袁比如光的多普勒效应遥 相 对论乃是当代物理学研究的基石袁通过本次研究袁使我深刻的 意识到了科学家为此做出的巨大贡献袁 为他们献上最诚挚的 敬意遥
244 论述
朴素贝叶斯在文本分类上的应用
孟天乐(天津市海河中学,天津市 300202)
2019 年 1 月
【摘 要】文本分类任务是自然语言处理领域中的一个重要分支任务,在现实中有着重要的应用,例如网络舆情分析、商品评论情感分析、新闻
领域类别分析等等。朴素贝叶斯方法是一种常见的分类模型,它是一种基于贝叶斯定理和特征条件独立性假设的分类方法。本文主要探究文本
在计算每一个词的权重时袁不仅考虑词频袁还考虑包含词
取 此 事 件 作 为 第 一 事 件 袁 其 时 空 坐 标 为 P1渊0袁0袁0袁0冤袁P1忆 渊0袁0袁0袁0冤袁在 撞忆系经过时间 t忆=n/淄忆后袁撞忆系中会看到第 n 个
波峰通过 撞忆系的原点袁由于波峰和波谷是绝对的袁因此 撞 系
中也会看到第 n 个波峰通过 撞忆系的原点袁我们把此事件记为
2.1 分 词
中文语言词与词之间没有天然的间隔袁 这一点不同于很 多西方语言渊如英语等冤遥 所以中文自然语言处理首要步骤就 是要对文本进行分词预处理袁即判断出词与词之间的间隔遥 常 用的中文分词工具有 jieba袁复旦大学的 fudannlp袁斯坦福大学 的 stanford 分词器等等遥
2.2 停用词的过滤
朴素贝叶斯方法是机器学习中一个重要的方法袁 这是一 种基于贝叶斯定理和特征条件独立性假设的分类方法遥 相关 研究和实验显示袁这种方法在文本分类任务上的效果较好遥
2 文本分类的流程
文本分类任务不同于其他的分类任务袁 文本是一种非结 构化的数据袁 需要在使用机器学习模型之前进行一些适当的 预处理和文本表示的工作袁 然后再将处理后的数据输入到模 型中得出分类的结论遥
分类的流程方法和朴素贝叶斯这一方法的原理并将这种方法应用到文本分类的一个任务— ——垃圾邮件过滤。
【关键词】文本分类;监督学习;朴素贝叶斯;数学模型;垃圾邮件过滤
【中图分类号】TP391.1
【文献标识码】A
【文章编号】1006-4222(2019)01-0244-02
1 前言
随着互联网时代的发展袁 文本数据的产生变得越来越容 易和普遍袁处理这些文本数据也变得越来越必要遥 文本分类任 务是自然语言处理领域中的一个重要分支任务袁 也是机器学 习技术中一个重要的应用袁应用场景涉及生活的方方面面袁如 网络舆情分析袁商品评论情感分析袁新闻领域类别分析等等遥
文本特征向量的每一个维度对应词典中的一个词袁 其取 值为该词在文档中的出现频次遥
给定词典 W={w1袁w2袁噎袁wV}袁文档 d 可以表示为特征向量 d={d1袁d2袁噎袁dV}袁其中 V 为词典大小袁wi 表示词典中的第 i 个 词袁ti 表示词 wi 在文档 d 中出现的次数遥 即 tf渊t袁d冤表示词 t 在 文档 d 中出现的频次袁其代表了词 t 在文档 d 中的重要程度遥
相关主题