1绪论1.1课题的背景和意义1.1.1研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。
系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。
相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。
语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。
1.1.2研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。
相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。
现有的语义相似性度量的方法主要有基于词典和基于语料库两种。
词典有着丰富的语义信息,但存在着未登录词的严重问题。
目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。
1.2国内外研究现状863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。
当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。
1)主题图和主题图融合研究现状主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。
这些早期努力演变的结果就是ISO/IEC 13250:2000[3],这项国际标准定义出了Topic Maps的完整数据模型。
2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图—XML Topic Maps(XTM)[4]成为ISO/IEC 13250的一部分。
同年,ISO委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。
主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法[5]和2007年由Jung-Mn Kim[6]提出了TM-MAP算法。
SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。
在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。
2)词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。
刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。
为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。
该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。
国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。
该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。
但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。
美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。
3)句子相似性度量研究现状目前,国内外存在着很多句子相似性度量的方法。
在国外,Niladri[11]提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。
Nirenburg[12]等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。
这两种方法所采用的相似性度量原理都是词组合法。
Lambros等提出同时依据句子的表层结构和content计算相似度的方法[13], 方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。
国内研究汉语句子句子相似度的学者也较多。
李素建[14]基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人[15]等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。
吕学强[16]等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵[17]等使用向量空间模型的TF~IDF法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春[18]等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计算等等。
上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。
1.3本文的研究content1.3.1研究content本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术—语义相似性度量技术。
首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。
然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。
最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。
本文的研究content包括以下几个方面:1)扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。
2)提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。
3)提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型和全信息理论,从语法,语义和语用三个方面对待融合知识元的资源来源—句子进行综合度量。
4)算法的测试与分析:在专业领域和公共领域对所提相似性度量算法进行多领域的实验测试,并将其与其他算法进行对比分析,研究分析其性能指标。
5)算法与系统的整合:将所提相似性度量算法融合到扩展主题图融合模块,并整合到863计划系统中进行实际使用,测试其功能和性能。
1.3.2研究方法及技术路线本文的研究方法从以下几个方面进行阐述:1)扩展主题图融合与语义冲突:通过对扩展主题图融合过程的分析,确定可能出现的语义冲突,并分析解决冲突的关键技术—语义相似性度量的具体使用场景。
2)词汇相似性度量的研究:综合研究已有的词汇相似性计算算法,进行分类与对比分析。
建立一个与课题相关简易的计算机领域的语料库,使用网络搜索双检验模型进行相似度计算,并将其与基于页空间数的语义相似度计算结合起来,形成一种基于语料库的语义相似度计算算法。
对已有的基于《知网》的方法进行改进,同时引入规则分析和同义词词典计算,提出一种利用本体和语料库的综合词语相似度算法(A new word similarity computation algorithm based on HOWNET and Corpus—HCSC)。
3)句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。
研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。
综合句义三维模型与全信息理论,提出基于全信息理论的句子相似度计算方法。
4)算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课题的Yotta系统中,实现算法与实际工程的结合。
总体上,本文拟采用“发现扩展主题图融合中的语义冲突—解决冲突,提出算法—算法实现与测试—应用到实际系统”的技术路线,如图1-2所示:图2-2 本文的技术路线1.4论文组织结构论文按照以下content进行组织:下面的文字的缩进是不是有点怪第1章绪论。
简述了课题的研究背景、研究的意义和价值,然后介绍了相关理论和技术的国内外研究现状,最后简介自己的研究content和研究思路。
第2章扩展主题图融合及语义冲突。
介绍主题图和扩展主题图的概念和描述,详述扩展主题图融合的原则和过程;研究融合过程中产生的语义冲突,分析其产生的原因和种类;研究语义相似度在扩展主题图融合中的具体使用。
第3章基于本体和语料库的综合词语相似度算法。
分析已有的计算算法,建立计算机领域的简易语料库,融合同义词辞典、规则、知网和语料库,提出一种基于本体和语料库的综合词语相似度计算算法。
第4章基于全信息理论的句子相似度算法。
分类介绍现有的句子相似度计算算法,研究句子语义计算模型,融合句义三维模型和全信息理论,提出一种基于全信息理论的句子相似度算法。
第5章算法的实验与分析。
首先介绍两类实验数据的准备,然后进行多领域、多层次的算法测试与分析及相关算法对比测试;最后将提出的语义相似性度量的算法应用到课题系统(Yotta系统)中进行综合测试。