(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910279900.7(22)申请日 2019.04.09(71)申请人 杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2号大街(72)发明人 徐小良 颜海江 王宇翔 何宏 夏一行 (74)专利代理机构 杭州千克知识产权代理有限公司 33246代理人 周希良(51)Int.Cl.G06F 17/27(2006.01)G06F 16/36(2019.01)
(54)发明名称一种语义敏感的RDF知识图谱近似查询方法(57)摘要本发明公开了一种语义敏感的RDF知识图谱近似查询方法,该方法包括以下步骤:将类型相同的RDF知识图谱实体归为一类作为划入领域知识子图,并将其作为根节点,通过根节点向外遍历实体,根据实体与根节点周围的谓词的分布计算混合实体相似度,同时选定合适的阈值,将混合实体相似度大于阈值的划入子图;利用TransE方法训练各个子图,获得子图谓词之间的语义相似度;将谓词相似度作为RDF知识图谱实体之间边的权重,并通过语义敏感的路径探查方法进行Top-K近似查询,获取语义近似的路径和实体结果。本发明利用子图划分,克服了大规模知识图谱语义相似度时间复杂度高的问题,利用语义敏
感的路径探查方法加快查询的收敛速度。
权利要求书2页 说明书5页 附图1页CN 109992786 A2019.07.09
CN 109992786
A1.一种语义敏感的RDF知识图谱近似查询方法,该方法包含如下步骤:步骤1:领域知识子图划分步骤1.1:领域知识子图划分的初始化根据RDF知识图谱O中实体的类型,将属于一个领域知识的所有相关实体汇集成领域知识子图,得到O1、O2……On,其中Oi∈O,i=1,2,3…n,领域知识子图Oi中都包含了相同类型实体集合Ei,其中Ei∈E,对于领域知识子图Oi中的每个实体都有步骤1.2:领域知识子图划分的完善针对步骤1.1中的领域知识子图Oi中的实体集合Ei,逐个遍历实体完善领域知识子图的划分:a)将实体作为根节点通过广度优先遍历方法在RDF知识图谱O中向外遍历;b)对探查到的每个实体,考虑该实体和根节点周围谓词的分布,据此进行基于Jaccard和余弦相似度相结合的混合实体相似度计算;当混合实体相似度大于设定阈值时,将其纳入该领域知识子图,遍历直至找不到满足阈值条件的实体终止;最终得到与领域知识相关的实体构成的领域知识子图,完成领域知识子图的划分;步骤2:谓词的语义相似度计算针对步骤1生成的每个领域知识子图Oi,将其构建成TransE的输入数据,利用随机梯度下降法调整其向量表示最小化TransE的目标函数,以获取所有实体与谓词的语义向量,形成模型Mi;接着加载模型Mi,对领域知识子图Oi中每一个谓词计算其与其它谓词在模型中语义向量的距离,通过取负再归一化得到谓词之间的语义相似度值;最终,任意两个谓词间都将具有一个唯一的语义相似度值,可在后续查询中使用;步骤3:语义敏感的Top-k近似查询,这个阶段具体包含如下步骤:步骤3.1:待查领域知识子图的选取用户给定一个查询图,通过一组明确的实体和谓词来查询所有符合某类型约束的未知实体;根据用户指定的期望返回的实体类型t选取领域知识子图Ot,根据用户指定的关系谓词p选取该谓词与领域知识子图Ot中其他谓词的语义相似度,维持一个对应关系谓词p的谓词语义相似度表S,作为领域知识子图Ot中实体与实体之间边的权重,将用户指定的实体作为查询的起始点estart;若用户指定多个实体及其不同的关系谓词,则维持不同起始点对应不同谓词语义相似度表,后续的查询使用多线程的方式,每一线程使用不同的起始点和谓词语义相似度表进行探查;步骤3.2:语义敏感的路径探查a)创建一个优先级队列PQ用来存放需要向外遍历的实体及起始点到该实体经过的实体集合,即起始点到达该实体的路径;b)将起始点estart放入优先级队列PQ中,优先级为1,路径{estart};c)从优先级队列PQ取出队列中的元素,假设取出的元素代表的实体为e,路径代表的实体集合为Path,循环遍历完e的邻居实体enb;d)新建实体集合NewPath,添加实体集合Path中的元素,并添加邻居实体enb
;权 利 要 求 书1/2页
2CN 109992786 A