当前位置:
文档之家› 基于语义词语相似度计算模型的研究与实现
基于语义词语相似度计算模型的研究与实现
Y
司栋森(副)教授
计算机系统结构
提交论文日期
二○一一年一月
西安电子科技大学 学位论文创新性声明
秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。
Abstract
Words similarity computing based on semanteme, a question of much essential and important in automatic information processing, is widely applied in areas of information retrieval, machine translation, QA systems, text mining and etc. Now there are various methods of words similarity computing, but results are not accurate because many factors, such as relations between words, are not considered in these methods. Based on 《synonyms dictionary》 , which is developed by information retrieval lab of HIT, structure information and principle of collecting words of 《 synonyms dictionary》are fully analyzed, the influence of relations between words and word distribution areas on words similarity computing has been studied in this paper. New algorithm on words similarity computing, through quantitative analysis on all these factors by means of experiment, is proposed and carried out in this paper. Three different methods of experiment are used to verify the rationality of algorithm, and also a comparative analysis from words similarity computing based on 《 How Net 》 (a thesis raised by Mr. Liuqun of Chinese Academy of Sciences computational place )is made in this paper. The algorithm is tested from the following three aspects: 1. analysis on word alternative、 2. experiment on statistical distribution of word similarity、3. statistic analysis on synonyms, and comparative analysis of two methods on rationality and accuracy have been made in this paper. As is shown in the research, the semantic similarity computing is efficient .This research, valuable and with great application prospect, can contribute to many domains in automatic information processing. Keywords: Word Similarity Semanteme 《Synonyms Dictionary》 《How Net》
本人签名: _____源自日期导师签名:___
_
日期
摘要
在智能信息处理中,基于语义的词语相似度计算是一个非常基础而关键 的问题,广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域。 词语相似度计算的算法有很多种,大部分算法都缺乏词语间各种关系等因素 的分析,因此对相似度进行量化时,导致词语相似度计算结果不够精准。 本文基于哈工大信息检索研究室开发的《同义词林》,根据《同义词林》 的结构信息和词语划分的各种规则,综合考虑了词语间关系、词语在词林中 分布区域及词语的语义相关性等信息,分析了它们对相似度的影响,提出并 实现了一种基于语义的词语相似度计算算法。 为了验证算法的合理性,本文通过三种不同的方法对算法进行实验验证,并 与中科院计算所刘群先生提出的基于《知网》词语相似度计算的算法进行了比较 分析。从三个方面对本文提出的算法进行测试,包括词语可替换性分析、词语相 似性统计分布实验分析和相同词库同义词统计分析。通过比较分析了这两种算法 的合理性及准确性。实验结果表明,本文提出的基于语义词语相似度计算方法是 行之有效的。这一课题的研究及其成果对于智能信息处理中的多种领域,都将具 有一定的参考价值和良好的应用前景。 关键词: 词语相似度 语义 《同义词词林》 《知网》
代
号
10701 TP391
学 密
号 级
0820421220 公开
分类号
题(中、英文)目
基于语义词语相似度计算模型的 研究与实现 Research and Implementation of Words Similarity Model Based on Semantic
作者姓名 学科门类
郜强 工学
指 导 教 师 姓 名 、 职 称曹伯燕 学科、专业
目录
第一章 绪论 ..................................................................................................................... 1 1.1 研究的背景及意义 .............................................................................................. 1 1.2 国内外研究现状 .................................................................................................. 2 1.3 本文的工作 .......................................................................................................... 3 1.4 本文的组织结构 .................................................................................................. 3 第二章 基于语义词语相似度的计算模型概述 ............................................................. 5 2.1 词语概念相似度的定义与特点 .......................................................................... 5 2.2 词语语义资源 ...................................................................................................... 6 2.2.1《知网》结构分析 ..................................................................................... 6 2.2.2《同义词词林》概述 ................................................................................. 8 2.2.3《WordNet》简述 .................................................................................... 10 2.3 词语相似度计算模型简介 ............................................................................... 11 2.3.1 基于单汉字的字面相似度计算 .............................................................. 11 2.3.2 基于词素的词语相似度计算 .................................................................. 12 2.3.3 基于语义词典的词语相似度计算 .......................................................... 12 2.3.4 基于统计方法的词语相似度计算 .......................................................... 13 2.3.5 基于本体概念的词语相似度计算 .......................................................... 13 2.4 本章小结 ............................................................................................................ 14 第三章 基于语义词语相似度计算模型的研究与实现 ............................................... 15 3.1 基于《知网》词语相似度计算方法的研究分析 ............................................ 15 3.1.1 义原相似度计算 ...................................................................................... 15 3.1.2 词语概念相似度计算 .............................................................................. 16 3.1.3 知网词语相似度计算方法的分析 .......................................................... 17 3.2 基于《词林》词语相似度计算算法的研究分析 ............................................ 19 3.2.1 基于《词林》词语相似度计算算法的简介 .......................................... 19 3.2.2 基于《词林》词语相似度计算算法的分析 .......................................... 21 3.3 一种改进的基于《词林》词语相似度计算的模型 ........................................ 23 3.3.1 改进的基于《词林》词语相似度计算模型的相关定义 ...................... 23 3.3.2《词林》词语编码的改进 ....................................................................... 25 3.3.3 影响词语间相似度相关因素的量化 ...................................................... 26 3.3.4 词语相似度计算算法描述 ...................................................................... 29 3.3.4.1 同义词义项相似度的计算 ............................................................ 29