当前位置：文档之家› 基于问句语义表征的中文问句相似度计算方法

基于问句语义表征的中文问句相似度计算方法

收稿日期 : 2007205231 基金项目 : 国家教育部高等学校博士学科点专项科研基金资助课题 (20050007023) 作者简介 : 陈康 (1982 —) ,男 ,博士生 , E2mail : chenkang @bit . edu. cn ; 樊孝忠 (1948 —) ,男 ,教授 ,博士生导师.
Calculation Method of Chinese Question Semantic Similarity Based on Question Semantic Representation
CHEN Kang , FAN Xiao2zhong , L IU J ie , J IA Ke2liang
(School of Computer Science and Technology , Beijing Institute of Technology , Beijing 100081 , China)
Abstract : A new approach to calculate t he Chinese question semantic similarit y is presented , t hat is divided into two steps , first to ext ract t he semantic representation f rom t he question , and secondly to compute t he semantic similarit y based on t he question semantic representation. The met hod of ext racting t he question semantic representation f rom t he question based on question semantic model matching is used. A FAQ oriented question answering system was developed based on t he question semantic similarit y calculation approach. Experimental result s showed t hat t he proposed algorit hm has a higher precision , approximately 85 %. Key words : question semantic representation ; semantic similarit y ; Chinese question ; semantic chunk
图 1 中文问句语义表征提取流程图 Fig. 1 Flow chart of extracting Chinese question
semantic representation
111 客气词过滤用户在提问时 , 往往会使用一些客气词 , 例如 :
“请问”“、请您告诉我”等. 客气词对分析问句的语义没有帮助. 因此收集了一个客气词表 , 在系统处理的第一步进行客气词过滤. 112 分词和词性标注
对于简单问句 , 采用问句句型模板规则匹配提取其问句语义表征 ; 对于复杂和无规则问句采用基于问句中一些关键词的语义进行联想的策略 , 概率推测其问句语义表征. 因此在两个层次上构建简单问句的句型模板规则库. 第 1 个层次是对问句中的语义块进行统计分析 ,建立语义块组成规则库 ; 第 2 个层次是根据问句中语义块之间的搭配关系和次序建立句型模板规则库 , 并为每一个句型模板建立对应的问句语义表征 , 只要能正确地识别出问句的句型模板 ,就能得到其问句语义表征. 问句语义表征的提取流程图如图 1 所示.
for j = 1 to m { if s ( w i + j)〈〉tj 匹配不成功 ,返回 ;
}
for each example of R { for each item of t he example if ( d ( ek , w i + k) > 阈值 ψ) break ; 记录当前匹配实例的分数 , 并保存作为最佳匹配实例 ;
使用了中科院计算所汉语词法分析系统 ( ICT2 CLAS) 的源码进行分词和词性标注 , 并在原有的基础上进行局部改动 , 增加了领域专业词库. 由于 ICTCLAS 系统使用 VC 编写 , 而问句分析采用 J ava
语言开发 ,使用 J N I 技术实现了对该系统的调用. 113 语义标注
征进行问句语义相似度计算 , 既考虑了句子的语义信息 ,又避免了只考虑词语出现次数的片面性. 211 词汇相似度计算
词语之间的相似度计算参照文献 [6 ]中的语义计算方法 ,采用知网作为系统的语义资源. 以下是以知网为基础的词语相似度计算策略.
①词语相似度计算规则. 对于两个词语 W 1 和 W 2 ,如果 W 1 有 n 个义项 ( 概念) : C11 , C12 , …, C1 n ; W 2 有 m 个义项 ( 概念) : C21 , C22 , …, C2 m ; W 1 和 W 2 的相似度是各个概念相似度的最大值.
系统在规则搜索时采用了带回溯的递归过程 , 用户输入的问句首先经过上述相关处理 , 然后在规则树中按层次逐个查找. 如果与用户问句相匹配的终端节点中包含模板信息 ,则中止搜索 ,取出模板中的信息进行相应处理 ,返回问句的语义表征.
2 中文问句语义相似度计算
作者根据对问句进行分析后生成的问句语义表
陈康 , 樊孝忠 , 刘杰 , 贾可亮
(北京理工大学计算机科学技术学院 , 北京 100081)
摘要 : 提出了一种中文问句语义相似度计算的新方法. 该方法分为两步 :第一步采用基于问句句型模板规则匹配的方法提取问句语义表征 ;第二步根据问句语义表征计算问句语义相似度. 采用该方法开发了一个面向常问问题集 ( FAQ) 的问答系统. 实验结果表明 ,采用该方法获得的相似度计算的准确率约为 85 %. 关键词 : 问句语义表征 ; 语义相似度 ; 中文问句 ; 语义块中图分类号 : TP 391 文献标识码 : A
常重要的. 作者提出了一种新的计算问句语义相似度的策略 :首先 , 分析问句的语义信息 , 使用问句语义表征表示问句的语义 , 并探索如何表示和提取问句语义表征 ;然后 , 在问句语义表征的基础上 , 进行问句语义相似度的计算.
1 提取问句语义表征
采用问句句型模板规则匹配的方法提取问句的语义信息. 问句语义表征 ( question semantic repre2 sentation , QSR) 是问句语义信息的形式化表示 , 剔除了问句中无关或者干扰的信息 , 是问句语义的必
第 27 卷第 12 期 2007 年 12 月
北京理工大学学报 Transactions of Beijing Institute of Technology
文章编号 :100120645 (2007) 1221073204
Vol. 27 No. 12 Dec. 2007
基于问句语义表征的中文问句相似度计算方法
使用知网对问句进行语义标注. 知网是一个以汉语和英语的词语所代表的概念为描述对象 , 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库. 114 语义块识别
问句中语义块的识别根据语义块的组成规则在句法树的指导下采用自底向上的 Chart 分析算法 , 对于简单问句在句法树的指导下进行识别. 语义块规则匹配的标准是所有元素以及实例的语义类型. 语义块规则可以表示为 R =〈 t1 , t2 , …, t m 〉, 该规则的其中一个实例是 E = e1 , e2 , …, em . 当前进行分析的问句可以表示为 W = w i + 1 , w i + 2 , …, w i + m ,并且定义 s ( x ) 用来计算 x 的语义类型 , d ( x , y) 用来计算两个概念 x 和 y 之间的距离. 算法的程序伪码如下 :
句子相似度计算在自然语言处理中有着广泛的应用. 目前 ,已有多种句子相似度的计算方法 , 如编辑距离法、最大公共子串 (L CS) 法、移动窗口动态缩小法等 ,但这些方法主要是面向英文字符串处理. 国内学者也在这方面作了大量研究 , 出现了基于语义词典的方法、TFIDF 方法、词性词序结合的方法、依存树法等[1 - 4 ] . 已有的计算方法多数都是基于向量空间模型的 ,很少采用完全的句法分析和语义分析. 另外 ,句子相似度的计算方法还不一定完全适合于问句相似度的计算. 因此 , 根据问句的特点 , 综合考虑问句的语义信息进行相似度计算的研究是非
相似度计算.
α
Sim ( P1 , P2) = d ( 北京理工大学学报第 27 卷
要表示. 一个简单的问句通常只对应一个问句语义表征 ,但一个问句语义表征可有多种不同的问句表示形式. 例如 “, 什么是病毒 ?”和“病毒是什么 ?”对应同一个问句语义表征 , 即实体 ( 病毒) 的定义. 问句语义表征的组成与问句的类型 (Q T) 直接相关 , 如询问实体属性的 QSR = { Q T = 属性 , At C =〈属性名〉, EnC =〈实体名〉} ;询问角色的 QSR = { Q T = 事件角色 , RoC =〈事件角色名〉, EvC =〈事件名〉, EnC = 〈实体名〉} 等. 其中 EnC 表示实体块 , EvC 表示事件块 ,At C 表示属性块 , RoC 表示角色块.
Sim ( W 1 , W 2)
=
max
i = 1 , 2 , …, n ; j = 1 , 2 , …, m
Sim ( C1 i , C2 j) .

e商务文档

基于问句语义表征的中文问句相似度计算方法

相关文档推荐：