当前位置：文档之家› 二元语法(2-gram)分词中的平滑算法_光环大数据培训

二元语法(2-gram)分词中的平滑算法_光环大数据培训

二元语法（2-gram）分词中的平滑算法_光环大数据培训
从一年前的计算语言学作业开始，我一直没明白，为什么我写的二元语法分词要比一元语法差。

两天来我仔细分析了一下之前的实验细节，发现二元语法分词要超过一元语法，可以有两种方式：1.超大的语料；2.强大的平滑算法。

实验采用北大人民日报1-6月语料，大约700万字，选其中90%作为训练数据，另外10%作为测试数据。

先看下实验结果：
分词方法准确率召回率 F值
最大正向匹配 0.9040 0.9189 0.9114
一元语法 0.9280 0.9502 0.9389
二元语法（+1平滑） 0.9093 0.9276 0.9184
二元语法（+eps平滑） 0.9102 0.9529 0.9311
二元语法（删除插值） 0.9317 0.9615 0.9463
一元语法引入了词频信息，效果对最大正相匹配有很大的提高。

但是奇怪的是，二元语法（用前两种平滑算法）居然比一元语法的效果更差，问题在哪呢？
经过测试，在测试语料中，二元语法的最短路径（参考《SharpICTCLAS分词系统简介(2)初步分词》的思路）上，平均每个段落有12处 p(wn|wn−1)=0。

这就意味着700万字的训练数据还是不够大，平滑算法在这里需要起到非常重要的作用。

下面简单看看几种平滑算法的“含义”。

+1 平滑、+ε平滑
p(wn|wn−1)=f(wn−1wn)+1f(wn−1)+m
对于f(wn−1wn)=0的情况，式子会退化成 p(wn|wn−1)=1f(wn−1)+m。

也就是说，如果前词频率越大，则认为后词出现的概率就越小。

删除插值法
p(wn|wn−1)=(1−λ)p′(wn|wn−1)+λp′(wn)
直观地说，这就是二元语法和一元语法的简单线性融合。

这种平滑算法在p′(wn|wn−1)=0时会退化成 p(wn|wn−1)=λp′(wn)。

也就是说，后词词频越大，则认为后词出现的概率就越大。

实际上这也只是两种不同方法（一元、二元语法）的融合，因为 p′(wn|wn−1) 和p′(wn) 这一个条件概率、一个概率直接加权没有什么物理意义，只是单纯地“平滑”了一下。

总结
两种平滑方式很有意思。

当出现数据稀疏时，一种只看前词的出现频率，一种只看后词的出现频率来进行估计。

从结果看，还是后者略好。

平滑……又是一个调参的过程，参数调不好，再NB的算法也没用……简直就是NB的参数胜过NB的方法啊。

但是不管怎样，最终还是得靠好方法来撑腰。

上面的实验还停留在“远古时期”，在现在有大规模语料的实际情况下，二元语法的数据稀疏问题已经基本消失了。

在别的问题中，数据稀疏问题还是经常存在，选取好的平滑方法和参数，仍然是一个重要的问题。

to information retrieval》，传说里面对平滑参数的选取有理论的证明。

为什么大家选择光环大数据！
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据领域具有多年经验的讲师，提高教学的整体质量与教学水准。

讲师团及时掌握时代的技术，将时新的技能融入教学中，让学生所学知识顺应时代所需。

通过深入浅出、通俗易懂的教学方式，指导学生较快的掌握技能知识，帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。

光环大数据专注国内大数据和人工智能培训，将在人工智能和大数据领域深度合作。

未来三年，光环大数据将联合国内百所大学，通过“AI智客计划”，共同推动人工智能产业人才生态建设，培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”，享2000元助学金！
【报名方式、详情咨询】
光环大数据网站报名：
手机报名链接：http:// /mobile/。

e商务文档

二元语法(2-gram)分词中的平滑算法_光环大数据培训

相关文档推荐：