当前位置:文档之家› 基于问句语义表征的中文问句相似度计算方法

基于问句语义表征的中文问句相似度计算方法


收稿日期 : 2007205231 基金项目 : 国家教育部高等学校博士学科点专项科研基金资助课题 (20050007023) 作者简介 : 陈康 (1982 —) ,男 ,博士生 , E2mail : chenkang @bit . edu. cn ; 樊孝忠 (1948 —) ,男 ,教授 ,博士生导师.
Calculation Method of Chinese Question Semantic Similarity Based on Question Semantic Representation
CHEN Kang , FAN Xiao2zhong , L IU J ie , J IA Ke2liang
(School of Computer Science and Technology , Beijing Institute of Technology , Beijing 100081 , China)
Abstract : A new approach to calculate t he Chinese question semantic similarit y is presented , t hat is divided into two steps , first to ext ract t he semantic representation f rom t he question , and secondly to compute t he semantic similarit y based on t he question semantic representation. The met hod of ext racting t he question semantic representation f rom t he question based on question semantic model matching is used. A FAQ oriented question answering system was developed based on t he question semantic similarit y calculation approach. Experimental result s showed t hat t he proposed algorit hm has a higher precision , approximately 85 %. Key words : question semantic representation ; semantic similarit y ; Chinese question ; semantic chunk
图 1 中文问句语义表征提取流程图 Fig. 1 Flow chart of extracting Chinese question
semantic representation
111 客气词过滤 用户在提问时 , 往往会使用一些客气词 , 例如 :
“请问”“、请您告诉我”等. 客气词对分析问句的语 义没有帮助. 因此收集了一个客气词表 , 在系统处 理的第一步进行客气词过滤. 112 分词和词性标注
对于简单问句 , 采用问句句型模板规则匹配提 取其问句语义表征 ; 对于复杂和无规则问句采用基 于问句中一些关键词的语义进行联想的策略 , 概率 推测其问句语义表征. 因此在两个层次上构建简单 问句的句型模板规则库. 第 1 个层次是对问句中的 语义块进行统计分析 ,建立语义块组成规则库 ; 第 2 个层次是根据问句中语义块之间的搭配关系和次序 建立句型模板规则库 , 并为每一个句型模板建立对 应的问句语义表征 , 只要能正确地识别出问句的句 型模板 ,就能得到其问句语义表征. 问句语义表征 的提取流程图如图 1 所示.
for j = 1 to m { if s ( w i + j)〈 〉tj 匹配不成功 ,返回 ;
}
for each example of R { for each item of t he example if ( d ( ek , w i + k) > 阈值 ψ) break ; 记录当前匹配实例的分数 , 并保存作为 最佳匹配实例 ;
使用了中科院计算所汉语词法分析系统 ( ICT2 CLAS) 的源码进行分词和词性标注 , 并在原有的基 础上进行局部改动 , 增加了领域专业词库. 由于 ICTCLAS 系统使用 VC 编写 , 而问句分析采用 J ava
语言开发 ,使用 J N I 技术实现了对该系统的调用. 113 语义标注
征进行问句语义相似度计算 , 既考虑了句子的语义 信息 ,又避免了只考虑词语出现次数的片面性. 211 词汇相似度计算
词语之间的相似度计算参照文献 [6 ]中的语义 计算方法 ,采用知网作为系统的语义资源. 以下是 以知网为基础的词语相似度计算策略.
①词语相似度计算规则. 对于两个词语 W 1 和 W 2 ,如 果 W 1 有 n 个 义 项 ( 概 念) : C11 , C12 , …, C1 n ; W 2 有 m 个 义 项 ( 概 念) : C21 , C22 , …, C2 m ; W 1 和 W 2 的相似度是各个概念相似度的最大值.
系统在规则搜索时采用了带回溯的递归过程 , 用户输入的问句首先经过上述相关处理 , 然后在规 则树中按层次逐个查找. 如果与用户问句相匹配的 终端节点中包含模板信息 ,则中止搜索 ,取出模板中 的信息进行相应处理 ,返回问句的语义表征.
2 中文问句语义相似度计算
作者根据对问句进行分析后生成的问句语义表
陈康 , 樊孝忠 , 刘杰 , 贾可亮
(北京理工大学 计算机科学技术学院 , 北京 100081)
摘 要 : 提出了一种中文问句语义相似度计算的新方法. 该方法分为两步 :第一步采用基于问句句型模板规则匹 配的方法提取问句语义表征 ;第二步根据问句语义表征计算问句语义相似度. 采用该方法开发了一个面向常问问 题集 ( FAQ) 的问答系统. 实验结果表明 ,采用该方法获得的相似度计算的准确率约为 85 %. 关键词 : 问句语义表征 ; 语义相似度 ; 中文问句 ; 语义块 中图分类号 : TP 391 文献标识码 : A
常重要的. 作者提出了一种新的计算问句语义相似 度的策略 :首先 , 分析问句的语义信息 , 使用问句语 义表征表示问句的语义 , 并探索如何表示和提取问 句语义表征 ;然后 , 在问句语义表征的基础上 , 进行 问句语义相似度的计算.
1 提取问句语义表征
采用问句句型模板规则匹配的方法提取问句的 语义信息. 问句语义表征 ( question semantic repre2 sentation , QSR) 是问句语义信息的形式化表示 , 剔 除了问句中无关或者干扰的信息 , 是问句语义的必
第 27 卷 第 12 期 2007 年 12 月
北京理工大学学报 Transactions of Beijing Institute of Technology
文章编号 :100120645 (2007) 1221073204
Vol. 27 No. 12 Dec. 2007
基于问句语义表征的中文问句相似度计算方法
使用知网对问句进行语义标注. 知网是一个以 汉语和英语的词语所代表的概念为描述对象 , 以揭 示概念与概念之间以及概念所具有的属性之间的关 系为基本内容的常识知识库. 114 语义块识别
问句中语义块的识别根据语义块的组成规则在 句法树的指导下采用自底向上的 Chart 分析算法 , 对于简单问句在句法树的指导下进行识别. 语义块 规则匹配的标准是所有元素以及实例的语义类型. 语义块规则可以表示为 R =〈 t1 , t2 , …, t m 〉, 该规 则的其中一个实例是 E = e1 , e2 , …, em . 当前进 行分 析 的 问 句 可 以 表 示 为 W = w i + 1 , w i + 2 , …, w i + m ,并且 定 义 s ( x ) 用 来 计 算 x 的 语 义 类 型 , d ( x , y) 用来计算两个概念 x 和 y 之间的距离. 算 法的程序伪码如下 :
句子相似度计算在自然语言处理中有着广泛的 应用. 目前 ,已有多种句子相似度的计算方法 , 如编 辑距离法 、最大公共子串 (L CS) 法 、移动窗口动态缩 小法等 ,但这些方法主要是面向英文字符串处理. 国内学者也在这方面作了大量研究 , 出现了基于语 义词典的方法 、TFIDF 方法 、词性词序结合的方法 、 依存树法等[1 - 4 ] . 已有的计算方法多数都是基于向 量空间模型的 ,很少采用完全的句法分析和语义分 析. 另外 ,句子相似度的计算方法还不一定完全适 合于问句相似度的计算. 因此 , 根据问句的特点 , 综 合考虑问句的语义信息进行相似度计算的研究是非
相似度计算.
α
Sim ( P1 , P2) = d ( 北 京 理 工 大 学 学 报 第 27 卷
要表示. 一个简单的问句通常只对应一个问句语义 表征 ,但一个问句语义表征可有多种不同的问句表 示形式. 例如 “, 什么是病毒 ?”和“病毒是什么 ?”对 应同一个问句语义表征 , 即实体 ( 病毒) 的定义. 问 句语义表征的组成与问句的类型 (Q T) 直接相关 , 如 询问实体属性的 QSR = { Q T = 属性 , At C =〈属性 名〉, EnC =〈实体名〉} ;询问角色的 QSR = { Q T = 事 件角色 , RoC =〈事件角色名〉, EvC =〈事件名〉, EnC = 〈实体名〉} 等. 其中 EnC 表示实体块 , EvC 表示事件 块 ,At C 表示属性块 , RoC 表示角色块.
Sim ( W 1 , W 2)
=
max
i = 1 , 2 , …, n ; j = 1 , 2 , …, m
Sim ( C1 i , C2 j) .
相关主题