当前位置:
文档之家› 详解中文搜索引擎分词技术及实例应用
详解中文搜索引擎分词技术及实例应用
365农民网: 365农民网:
四.分词中的难题 1.歧义识别 这个门把手坏了」 把手坏了 把手」 「这个门把手坏了」 -「把手」是个词 ; 把手拿开 拿开」 -「把手 不是一个词; 把手」 -「把手」不是一个词; 「请把手拿开」 元帅任命了一名中将 中将」 -「中将 是个词; 中将」 「元帅任命了一名中将」 -「中将」是个词; 产量三年中将增长两倍」 -「中将 不再是词。 中将增长两倍 中将」 「产量三年中将增长两倍」 -「中将」不再是词。 真歧义 「乒乓球拍卖完了」 乒乓球拍卖完了」 可以切分成「 可以切分成「乒乓 球拍 卖 完 了」、 也可切分成「 也可切分成「乒乓球 拍卖 完 了」。 2.新词识别 就是那些在字典中没收录过,但又确实能称为词的那些词。 就是那些在字典中没收录过,但又确实能称为词的那些词。 「吴官正在吉林考察」 吴官正在吉林考察」 在吉林考察
2.基于统计的分词方法 相邻的字同时出现的次数越多,就越有可能构成一个词。 相邻的字同时出现的次数越多,就越有可能构成一个词。 用于系统自动识别新词。 用于系统自动识别新词。 3.基于理解的分词方法 在分词的同时进行句法、语义分析, 在分词的同时进行句法、语义分析,利用句法信息和语义 信息来处理歧义现象。 信息来处理歧义现象。
统计结果表明:单纯使用正向最大匹配的错误率为1/169, 统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向 最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。 最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
365农民网: 365农民网:
“娱乐新闻报道”和“新闻娱乐报道”的相关提示基本完全一样。 娱乐新闻报道” 新闻娱乐报道”的相关提示基本完全一样。
365农民网: 365农民网:
三、如何计算相似性并排序输出
为什么增 加的都是 “娱乐新 闻”的相 关提示呢? 关提示呢?
配算法
365农民网: 365农民网:
查询: 查询: 邓小平安定军山 正向最大匹配: 邓小平/安定/ 正向分词时优先。
中文搜索引擎技术
第一节 中文分词技术 分词技术简述 分词技术 分词中的难题与发展 分词中的难题与发展 第二节 拼写检查错误提示 第三节相关提示功能分析 第三节相关提示功能分析 第四节 案例分析 中国三大搜索引擎的分词技术
365农民网: 365农民网:
第一节 中文分词技术
365农民网: 365农民网:
查询:何润东西南北( 何润东” 查询:何润东西南北(“何润东”、“东西南北”两个词) 东西南北”两个词) 正向最大匹配: 何润东/ 正向最大匹配: 何润东/西/南北
归纳: 归纳: 首先用专有词典采用最大正向匹配分词,切分出部分结果; 首先用专有词典采用最大正向匹配分词,切分出部分结果; 剩余没有切分交给普通词典,同样采取正向最大匹配分词。 剩余没有切分交给普通词典,同样采取正向最大匹配分词。
收录人名本身是一项巨大的工程
「听说温家宝物非常多」 过多专用人名的收录很容易出现问题 听说温家宝物非常多」 温家宝物非常多
365农民网: 365农民网:
五.最新进展 设计目标: 设计目标: 1.无长度限制 1.无长度限制 2.歧义包容 歧义包容: 2.歧义包容:将出现歧义的 各种可能性都包含进去, 各种可能性都包含进去, 作为分词的参考。 作为分词的参考。 方案: 方案:将关系数据库的词按 字打散, 字打散,并存放到层次 数据库中。 数据库中。 特色:分词长度限制 长度限制, 特色:分词长度限制,词的 成了树 的遍历。 的遍历色摇滚”整个儿好地看成一个 词,赞。它连“很搞笑”都看成是 一个整体!
365农民网: 365农民网:
365农民网: 365农民网:
设每个单词都有一个权重值 IDF(word)= IDF(word) 是包含单词word的网页数目 是包含单词word的网页数目 得: IDF(娱乐 IDF(娱乐)=log(10/1)=1 娱乐)=log(10/1)=1 IDF(新闻 IDF(新闻)=log(10/1)=1 新闻)=log(10/1)=1 IDF(报道 IDF(报道)= log(10/1)=1 报道)= 权重是:娱乐=新闻= 权重是:娱乐=新闻=报道 IDF(娱乐 新闻,报道) IDF(娱乐,新闻,报道) 娱乐, = IDF(娱乐) + IDF(娱乐) + IDF(娱乐) =3 IDF(娱乐 IDF(娱乐 IDF(娱乐 娱乐) 娱乐) 娱乐) IDF(娱乐 新闻,报道) >IDF(娱乐 报道)>IDF(新闻 报道) IDF(娱乐,新闻,报道) >IDF(娱乐,报道)>IDF(新闻,报道) 娱乐, 娱乐, 新闻, 查询权重相同,则按照用户查询次数由高到低排序输出。 查询权重相同,则按照用户查询次数由高到低排序输出。
感冒 感冒解痛散 感冒解痛颗粒 感冒解痛灵茶 等都能匹配
365农民网: 365农民网:
第二节 拼写序标注 成拼音。 成拼音。 查询:罗华世界有风军 查询: 词长不限,专用词全部标注 词长不限,
365农民网: 365农民网:
二.错误提示流程
用户输入 匹配 不做拼写检查
查分词词典 不匹配
利用拼音标注程序对用户输入进行拼音标注
在同音词词典 里面扫描 拼音提示 流程 匹配 输出权重比较大 的几个提示结果
不匹配 不做提示
365农民网: 365农民网:
36大分词词长: 最大分词词长
小于等于3 小于等于3个中文字不切割
对于大于等于4个汉字的词将被分词。 对于大于等于4个汉字的词将被分词。
365农民网: 365农民网:
2.分词算法: 2.分词算法: 分词算法 查询: 工地方向导” 查询:“工地方向导” 正向最大匹配: 工地/方向/ 正向最大匹配: 工地/方向/导 反向最大匹配: 反向最大匹配: 工/地方/向导 地方/
365农民网: 365农民网:
分析语句: 分析语句:红色摇滚很搞笑
从拆词的情况来看,谷歌 谷歌竟然并 谷歌 没有把“摇滚”看作是一个词!它是 不是在搞笑?这就意味着,当你的谷 歌里搜索“摇滚”的时候,谷歌把这 句话也当成候选的结果“斗牛士摇来 摇去,公牛说:本牛不操无名之辈, 滚!” 雅虎比谷歌更懂中文!人家起码 雅虎 知道摇滚是一个词。
一.什么是中文分词 把中文的汉字序列切分成有意义的词。 把中文的汉字序列切分成有意义的词。 一个/ 例:我/是/一个/学生 二.分词技术简述 1.基于字符串匹配的分词方法 按照一定的策略将待分析的汉字串与一个机器词库中的词条 进行匹配。 进行匹配。 常用分词方法: 常用分词方法: 正向最大匹配法(由左到右的方向) 正向最大匹配法(由左到右的方向) 有意/ 例:我 /有意/ 见/ 分歧 反向最大匹配法 意见/ 例:我 /有/意见/分歧
365农民网: 365农民网:
第四节 案例分析
中国三大搜索引擎的分词技术 让大家欣赏一下中国三大搜索引擎的分词技术。很幸运, 我们的三大搜索引擎都在他们的快照里把查询语句拆分, 然后用不同颜色的高亮来显示,大家可以一目了然地看 到他们的分词方法。搜狗、有道这些非主流的搜索引擎 都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照 可以直接看到,但是却没有分词高亮显示。谷歌已经去 掉了“快照”功能,只有上Google去,并且需要使用代 理服务器或者用一点小技巧才能看到。
第三节相关提示功能分析
一、如何获得用户的查询信息 可对搜索引擎用户查询日志(LOG)文件做查询归类。 可对搜索引擎用户查询日志(LOG)文件做查询归类。 文件做查询归类 二、如何选择提示词 对于用户查询进行分词,然后对于分词后的结果来进行相似 对于用户查询进行分词,然后对于分词后的结果来进行相似 性计算。 性计算。
365农民网: 365农民网:
365农民网: 365农民网:
四、中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术 要落后很大一段距离,许多西文的处理方法中文不能直接采用, 就是因为中文必需有分词这道工序。中文分词是其他中文信息处 理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器 翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等, 都需要用到分词。因为中文需要分词,可能会影响一些研究,但 同时也为一些企业带来机会,因为国外的计算机处理技术要想进 入中国市场,首先也是要解决中文分词问题。在中文研究方面, 相比外国人来说,中国人有十分明显的优势。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢, 即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引 擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重 影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的 准确性和速度,二者都需要达到很高的要求。