图片简介:本技术介绍了一种图谱推理规则的自动提取方法,包括:1)使用图谱数据和所需提取规则的关系信息构建出一个正向种群和一个逆向种群,每个种群都包含一定数量的初代个体,每个个体包含若干的随机连接的处理节点和判断节点。
2)在每个个体中提取节点链。
3)通过图谱数据和节点链提取规则,计算规则的相关指标并根据结果反馈给相关的个体和节点。
4)从本代两个种群中选出适应度较高的个体作为父母个体对所有个体进行随机变异和种群间的交叉,产生下一代的个体。
5)重复执行上述步骤直至达到设定的目标代数或经过一定代数没有新的规则产生。
该方法能有效的提取出符合要求的规则,且规则能有较好的可解释性。
技术要求1.一种图谱推理规则的自动提取方法,其特征在于,包括以下步骤:(1)提供需要提取规则的关系和图谱数据,图谱数据中包含若干个由头实体、实体间关系以及尾实体组成的样本,从随机选取的样本的头实体出发,根据该头实体在图谱数据中的连接关系随机生成的个体组成正向种群,从随机选取的样本的尾实体出发,根据该尾实体在图谱数据中的连接关系随机生成的个体组成逆向种群;针对个体,选取图谱数据中非提取规则关系的连接关系作为用于判断关系的判断节点,并为判断节点添加用于判定判断节点为起始节点或结束节点的处理节点,判断节点按照选取顺序依次连接后与处理节点组成个体;(2)针对正向种群和逆向种群,将图谱数据结合个体的判断节点连接信息进行规则提取,并计算获取规则的置信指数和频次指数和距离奖励函数值,同时计算提取出规则的判断节点的关联度指标和当前节点链所属个体的适应指数;(3)依据判断节点的关联度指标确定判断节点的节点属性突变概率和关系属性替换概率;(4)根据适应指数选取适应度指数大的个体作为父代,按照确定的节点属性突变概率和关系属性替换概率对父代的判断节点进行节点突变和关系属性替换处理,然后对处理后的父代在正向种群或逆向种群之间进行交叉,获得子代;(5)对子代个体重复步骤(2)~(4),直到满足迭代终止条件为止,然后提取置信指数和频次指数满足要求的规则作为最终提取规则并输出。
2.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,针对正向种群,规则提取的过程为:(a)从正向种群中获取一个个体,并取出构建该个体的样本的头实体和尾实体;(b)在当前个体的判断节点没有遍历完时,在图谱关系中寻找满足当前判断节点对应关系的头实体对应的所有尾实体,将所有满足判断节点对应关系的尾实体存入尾实体集合,并将该尾实体集合作为下一个判断节点的头实体集合;(c)在所述尾实体集合不为空时,判断样本的尾实体是否在尾实体集合中,若在,将第一个判断节点至当前判断节点所代表的关系作为规则并提取;若不在,跳转执行步骤(b);(d)在所述尾实体集合为空时,当前节点链无规则提出,并结束当前节点链的规则提取。
3.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,针对逆向种群,规则提取的过程为:(a)’从逆向种群中获取一个个体,并取出构建该个体的样本的头实体和尾实体;(b)’在当前个体的判断节点没有遍历完时,在图谱关系中寻找满足当前判断节点对应关系的尾实体对应的所有头实体,将所有满足判断节点对应关系的头实体存入头实体集合,并将该头实体集合作为下一个判断节点的尾实体集合;(c)’在所述头实体集合不为空时,判断样本的尾实体是否在头实体集合中,若在,将第一个判断节点至当前判断节点所代表的关系逆序输出作为规则并提取;若不在,跳转执行步骤(b)’;(d)’在所述头实体集合为空时,当前节点链无规则提出,并结束当前节点链的规则提取。
4.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,获取规则的置信指数和频次指数的计算方式分别为:其中,fq(Rk)为规则Rk的频次指数,bl(Rk)为第k条规则Rk的置信指数,ai表示所有实体从处理节点开始,满足节点链中全部关系到达判断节点Ai的实体组合数量,实体组合为开始实体、中间判断节点的中间实体以及到达判断节点Ai的尾实体的集合,表示所有实体从处理节点开始,满足节点链中全部关系到达判断节点Ai的所有实体组合中且开始实体和判断节点Ai的尾实体满足提取关系rx的实体组合数量,i为判断节点的索引,x为关系r 的索引。
5.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,判断节点的关联度指标和当前节点链所属个体的适应指数的计算方式分别为:其中,f为适应指数,N为当前个体提出的规则数,bl(Rk)为当前提出的第k条规则Rk的置信指数,μnew(Rk)为新规则奖励值指数,即如果提出的第k条规则Rk为新规则指数,则μnew(Rk) 为一个大于0的值,dist()为距离奖励函数,为样本t经过疑似规则到达实体与样本中尾实体间的跳数,当跳数超过5跳,或该个体有规则提出,则不再计算距离奖励,即距离奖励函数值为0;σ取值为0~2,w取值大于1,为第n代个体中判断节点Ai所具有属性的关联度指标,α为常数,取值范围为0~1;βi为判断节点Ai关联度指标的计算参数;为判断节点Ai所具有属性从第n代个体中获取的累积反馈值,为第0 代个体中判断节点Ai所具有属性的关联度指标,n(Ai)为当前代数个体中包含判断节点Ai所具有属性的判断节点数量,M为当代个体中判断节点的总数,为判断节点Ai所具有属性从第n代个体中获取的正向累积反馈值,为计算正向累积反馈值的奖励计算参数,取值范围为1000~1000000,为判断节点Ai所具有属性从第n代个体中获取的负向累积反馈值,为第n代个体中提取出的重要规则集合,为第n代个体中提取出的备选规则集合,提取出的规则根据置信指数bl(Rk)划分为重要规则和备选规则,划分的指标界限由经验所得,是为检测判断节点Ai 所具有关系ri是否在规则Rk中出现的函数,如果出现则其值为1,否则为0,为规则Rk中包含的关系集合。
6.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,判断节点的节点属性突变概率和关系属性替换概率的计算方式分别为:其中,为第n代个体中判断节点Ai发生节点突变的概率,为第n代个体中判断节点Ai所具有属性的关联度指标,为第n代个体中判断节点Ai 的被关系r替换的概率,为第n代个体中判断节点属性为关系r的判断节点的关联度指标,为常数,取值范围为0~200;ATTR为原图谱中所有与上一判断节点所代表关系的相邻关系的判断节点集合。
7.如权利要求6所述的图谱推理规则的自动提取方法,其特征在于,步骤(4)中,以为概率选取父代中的发生节点属性突变的判断节点,发生节点属性突变的判断节点会根据概率选择新关系属性代替自身原有的关系属性;如果当前节点发生突变后,则不会再判断其后续节点,直接将所有的后续节点根据当前节点突变后的节点信息,全部发生节点突变。
8.如权利要求1所述的图谱推理规则的自动提取方法,其特征在于,步骤(5)中,迭代终止条件包括达到设定的目标代数或是否超过若干代没有提出新规则。
技术说明书一种图谱推理规则的自动提取方法技术领域本技术属于数据挖掘与信息处理技术领域,具体涉及一种图谱推理规则的自动提取方法。
背景技术随着信息技术的飞速发展,各个行业都产生了庞大的数据,其中大多数数据往往是无效数据并不能产生更多的价值,但是关系型数据却能通过分析能获得更多市场信息,创造更多的二次价值。
为了更好的存储和分析这样的关系型数据,知识图谱技术应运而生。
知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化,或知识领域映射地图,用来显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及载体,挖掘、分析、构建、绘制和显示知识及他们互相之间的关系。
知识图谱是实体和关系构成的有向图,图中的节点代表实体,边代表实体之间的语义关系。
知识图谱中最基本的表现形式是三元组。
目前的知识图谱一般规模较大,但是其中绝大多数的知识图谱都是不完备的,因为有大量的知识无法在其中有效地表达。
知识图谱能把复杂的知识领域及知识体系通过数据挖掘、信息处理、知识计量和图形绘制显示出来,表示该领域的发展动态及规律,为该领域的研究提供全方位、整体性、关系链的参考。
为了更好的利用知识图谱获取数据的价值最大化,往往需要对图谱数据进行推理,这样才能从数据中产生新的价值。
其中对知识图谱的数据进行规则提取是知识图谱推理的先决条件,更加迫切的需要技术上的支持。
现在虽然有了一些知识图谱规则的提取方法,但往往都存在着一定程度上的不足。
例如路径排序算法PRA(Path Ranking Algorithm,以两个实体间的路径作为特征,来判断它们之间可能存在的关系)、SFE等方法通过近似路径遍历的方法虽然能得到在一定长度内的所有规则,但是往往会得到较多重复的规则,而且算法的时间复杂度很高,提取规则的效率较低,并且无法提取复杂和较长的规则。
图嵌入算法Node2vec、TransE(表示学习在自然语言处理领域受到广泛关注起源于Mikolov等人于2013年提出的word2vec词表示学习模型和工具包。
利用该模型,Mikolov等人发现词向量空间存在平移不变现象)等方法通过将节点嵌入的方式比较向量的相似性,最终利用深度学习得出的结果虽然在指标上的表现不错但是提出的规则的解释性很差,并且往往难以应用到现实中获取更多的价值。
技术内容为了更高效地获得图谱推理规则数据,增强提取出规则的可解释性,克服传统方法中对于复杂和长规则无法提取的情况,本技术提出了一种图谱推理规则的自动提取方法。
本技术解决其技术问题所采用的技术方案:一种图谱推理规则的自动提取方法,包括以下步骤:(1)提供需要提取规则的关系和图谱数据,图谱数据中包含若干个由头实体、实体间关系以及尾实体组成的样本,从随机选取的样本的头实体出发,根据该头实体在图谱数据中的连接关系随机生成的个体组成正向种群,从随机选取的样本的尾实体出发,根据该尾实体在图谱数据中的连接关系随机生成的个体组成逆向种群;针对个体,选取图谱数据中非提取规则关系的连接关系作为用于判断关系的判断节点,并为判断节点添加用于判定判断节点为起始节点或结束节点的处理节点,判断节点按照选取顺序依次连接后与处理节点组成个体;(2)针对正向种群和逆向种群,将图谱数据结合个体的判断节点连接信息进行规则提取,并计算获取规则的置信指数和频次指数和距离奖励函数值,同时计算提取出规则的判断节点的关联度指标和当前节点链所属个体的适应指数;(3)依据判断节点的关联度指标确定判断节点的节点属性突变概率和关系属性替换概率;(4)根据适应指数选取适应度指数大的个体作为父代,按照确定的节点属性突变概率和关系属性替换概率对父代的判断节点进行节点突变和关系属性替换处理,然后对处理后的父代在正向种群或逆向种群之间进行交叉,获得子代;(5)对子代个体重复步骤(2)~(4),直到满足迭代终止条件为止,然后提取置信指数和频次指数满足要求的规则作为最终提取规则并输出。