当前位置：文档之家› 朴素贝叶斯在文本分类上的应用

朴素贝叶斯在文本分类上的应用

第二事件袁P2渊x袁0袁0袁t冤袁P2忆渊0袁0袁0袁t忆冤.则根据洛伦兹变换袁我们有 x=酌ut忆袁t=酌t忆遥在撞系中看到 t 时刻第 n 个波峰通过渊x袁
0袁0冤点袁则此时该电磁波通过撞系原点的周期数为 n+淄xcos兹/c袁
也就是院
n+
淄xcos兹 c
=淄t寅淄=
酌渊1-
淄忆 u c
中文语言中存在一些没有意义的词袁准确的说是对分类
没有意义的词袁例如语气词尧助词尧量词等等袁去除这些词有利于去掉一些分类时的噪音信息袁同时对降低文本向量的维度袁提高文本分类的速度也有一定的帮助遥
2.3 文本向量的表示
文本向量的表示是将非结构化数据转换成结构化数据的
一个重要步骤袁在这一步骤中袁我们使用一个个向量来表示文本的内容袁常见的文本表示方法主要有以下几种方法院 2.3.1 TF 模型
cos兹冤
渊5冤
这就是光的多普勒效应[2]袁如果淄忆是该电磁波的固有频率
的话袁从式渊5冤可以看出袁两参考系相向运动时袁撞系中看到的
光的频率会变大袁也就是发生了蓝移曰反之袁撞系中看到的光
的频率会变小袁也就是发生了红移曰兹=90毅时袁只要两惯性系有
相对运动袁也可看到光的红移现象袁这就是光的横向多普勒效
TF 模型的特点是模型假设文档中出现频次越高的词对
刻画文档信息所起的作用越大袁但是 TF 有一个缺点袁就是不考虑不同词对区分不同文档的不同贡献遥有一些词尽管在文档中出现的次数较少袁但是有可能是分类过程中十分重要的特征袁有一些词尽管会经常出现在众多的文档中袁但是可能对分类任务没有太大的帮助遥于是基于 TF 模型袁存在一个改进的 TF-IDF 模型遥 2.3.2 TF-IDF 模型
既考虑到词出现的频率袁也考虑到词的稀缺程度遥对于那些出
现次数越高且出现的文档数越少的词袁tf-idf 值越大袁在一定
其中袁tf-idf渊t冤表示词 t 的 tf-idf 值袁词 t 的逆文档频率院
idf渊t冤=
log渊n+1冤 df渊t冤+1
+1
词 t 的文档频率 df渊t冤是指文档集中出现了词 t 的文档数
量袁n 表示所有的文档数袁词的逆文档频率刻画的是在词在文
档的稀缺程度遥稀缺程度越高袁idf渊t冤越高遥可以看出 tf-idf 值
参考文献 [1]肖志俊.对麦克斯韦方程组的探君.光多普勒效应及应用[J].现代物理知识袁2003渊4冤院14~15.
收稿日期：2018-12-17
2019 年 1 月
论述 245
的文档在整个文档集中的频次信息遥计算公式如下院
tf-idf渊t冤=tf渊t袁d冤窑idf渊t冤
应袁这是声学多普勒效应中没有的现象袁其本质为狭义相对论
中的时间变缓遥
3 结语
在本文中袁通过对狭义相对论的研究袁最终得到了光的多普勒效应的表达式袁并通过与声学多普勒效应的对比研究袁理解了声学多普勒效应和光学多普勒效应的异同遥当限定条件为低速运动时袁我们可以在经典物理学的框架下研究问题袁比如声学多普勒效应袁但如果要研究高速运动的光波袁我们就需要在狭义相对论的框架下研究问题袁比如光的多普勒效应遥相对论乃是当代物理学研究的基石袁通过本次研究袁使我深刻的意识到了科学家为此做出的巨大贡献袁为他们献上最诚挚的敬意遥
244 论述
朴素贝叶斯在文本分类上的应用
孟天乐（天津市海河中学，天津市 300202）
2019 年 1 月
【摘要】文本分类任务是自然语言处理领域中的一个重要分支任务，在现实中有着重要的应用，例如网络舆情分析、商品评论情感分析、新闻
领域类别分析等等。朴素贝叶斯方法是一种常见的分类模型，它是一种基于贝叶斯定理和特征条件独立性假设的分类方法。本文主要探究文本
在计算每一个词的权重时袁不仅考虑词频袁还考虑包含词
取此事件作为第一事件袁其时空坐标为 P1渊0袁0袁0袁0冤袁P1忆渊0袁0袁0袁0冤袁在撞忆系经过时间 t忆=n/淄忆后袁撞忆系中会看到第 n 个
波峰通过撞忆系的原点袁由于波峰和波谷是绝对的袁因此撞系
中也会看到第 n 个波峰通过撞忆系的原点袁我们把此事件记为
2.1 分词
中文语言词与词之间没有天然的间隔袁这一点不同于很多西方语言渊如英语等冤遥所以中文自然语言处理首要步骤就是要对文本进行分词预处理袁即判断出词与词之间的间隔遥常用的中文分词工具有 jieba袁复旦大学的 fudannlp袁斯坦福大学的 stanford 分词器等等遥
2.2 停用词的过滤
朴素贝叶斯方法是机器学习中一个重要的方法袁这是一种基于贝叶斯定理和特征条件独立性假设的分类方法遥相关研究和实验显示袁这种方法在文本分类任务上的效果较好遥
2 文本分类的流程
文本分类任务不同于其他的分类任务袁文本是一种非结构化的数据袁需要在使用机器学习模型之前进行一些适当的预处理和文本表示的工作袁然后再将处理后的数据输入到模型中得出分类的结论遥
分类的流程方法和朴素贝叶斯这一方法的原理并将这种方法应用到文本分类的一个任务— ——垃圾邮件过滤。
【关键词】文本分类；监督学习；朴素贝叶斯；数学模型；垃圾邮件过滤
【中图分类号】TP391.1
【文献标识码】A
【文章编号】1006-4222（2019）01-0244-02
1 前言
随着互联网时代的发展袁文本数据的产生变得越来越容易和普遍袁处理这些文本数据也变得越来越必要遥文本分类任务是自然语言处理领域中的一个重要分支任务袁也是机器学习技术中一个重要的应用袁应用场景涉及生活的方方面面袁如网络舆情分析袁商品评论情感分析袁新闻领域类别分析等等遥
文本特征向量的每一个维度对应词典中的一个词袁其取值为该词在文档中的出现频次遥
给定词典 W={w1袁w2袁噎袁wV}袁文档 d 可以表示为特征向量 d={d1袁d2袁噎袁dV}袁其中 V 为词典大小袁wi 表示词典中的第 i 个词袁ti 表示词 wi 在文档 d 中出现的次数遥即 tf渊t袁d冤表示词 t 在文档 d 中出现的频次袁其代表了词 t 在文档 d 中的重要程度遥

e商务文档

朴素贝叶斯在文本分类上的应用

相关文档推荐：