当前位置:文档之家› 实值形式背景下概念格的渐进式并行构造算法

实值形式背景下概念格的渐进式并行构造算法

实值形式背景下概念格的渐进式并行构造算法郭泽蔚;姜麟;李金海【摘要】经典的形式概念分析主要应用于属性值为布尔值的形式背景中,然而在很多实际应用领域,由于问题的复杂性,更多的形式背景中属性值为普通实值.这种实值虽然更为适合用来刻画实际问题的不确定性,但由于算法的复杂性大,当数据背景比较大时,传统意义上的算法并不能有效地解决概念的抽取问题.随着高性能并行技术的发展与成熟,并行计算机的成本与费用越来越低,通过适当的并行化手段,将其应用于形式概念分析领域可以显著提高算法的效率.文中基于实值形式背景,提出了一种构造实值概念格的渐进式算法,且通过对渐进式构造过程的分析,将算法并行化.通过数值实验对比了串行与并行算法的运算时间,给出了该算法并行化的加速效率.%Classical formal concept analysis is mainly used in the formal context whose attributes are Booleanvalued.However,in many fields of practical applications,due to the complexity of the problem,attributes are ordinary real-valued in more backgrounds.Although this kind of attributes are more appropriate for describing the uncertainty of practical problem,the high complexity makes traditional algorithms less effective in extracting concepts when the data under consideration is relatively large.With the development and maturity of high-performance parallel technology,the expense and cost of parallel computers become less and less,so it deserves to apply parallel technology in formal concept analysis for improving the efficiency of mining concepts.Based on the real formal context,this paper puts forward an incremental algorithm which is used to extract real-valued concept lattice.And then through analyzing the process of incrementallyupdating,the algorithm is parallelized.Finally,numerical experiments are conducted to compare serial and parallel algorithms,which verifies the acceleration efficiency of the proposed parallel algorithm.【期刊名称】《西北大学学报(自然科学版)》【年(卷),期】2018(048)003【总页数】8页(P335-342)【关键词】实值形式背景;概念格构造;渐进式算法;并行化【作者】郭泽蔚;姜麟;李金海【作者单位】昆明理工大学理学院,云南昆明650500;昆明理工大学理学院,云南昆明650500;昆明理工大学数据科学研究中心,云南昆明650500【正文语种】中文【中图分类】TP18形式概念分析(Formal concept analysis)是20世纪80年代初期由德国教授R.Wille提出的一种用于发现知识的理论。

形式概念分析通过构造概念格来进行数据的处理,也称概念格理论[1]。

以往关于概念格的研究主要集中于经典的形式背景,即属性值为Boolean值,然而,由于现实中数据的复杂性,更多的形式背景中的属性值是区间形式的普通实值。

经典的概念格主要应用于发现二值(或多值)形式背景的概念构造,因此,传统形式背景中概念格的构造方法并不适用于实值形式背景[3-4]。

而实值形式背景概念格的构造存在算法复杂性大等缺陷,现阶段围绕这一类问题的研究也缺少较好的普适性,故进一步讨论实值概念格的构造具有一定的意义。

Matlab已成为数值计算领域的主流工具,其拥有的并行计算工具箱(Parallel computing toolbox,PCT)和并行计算服务(Distributed computing server,DCS)可以实现基于多处理器平台和集群平台的多种并行计算任务,利用PCT和DCS,用户无需关心多核、多处理器之间以及集群之间的底层数据通信,可以将更多的精力放在并行算法的设计,充分利用Matlab提供的数值计算模块和数据显示功能,高效便捷的完成并行计算任务[5]。

经典形式背景下的建格算法并不适用于处理实值形式背景下的概念格,而串行算法在数据规模较大的情况下计算效率较低。

针对实值形式背景的特点,结合经典概念格的渐进式构造思想,本文首先给出了计算实值概念格的方法;然后提出了一种实值概念格计算的渐进式构造算法,并对其进行改进,得到并行算法,应用Matlab对串、并算法进行程序的实现;最后通过数值实验对该算法的串行与并行运行效率作了对比,对该算法在特定实值条件下的并行化可行性进行了评估。

1 实值形式背景与实概念格1.1 实集定义1[6] 设R为实数集。

对于μ,v∈R,称I=[μ,v]为R上的一个实区间,其中μ和v 分别称为实区间I的上界和下界。

如果μ>v,则称实区间I是空的,记为[,]。

显然,当I=[μ,v]非空时,I就是由μ到v之间的全部实数构成的集合。

对于两个实区间I1=[μ1,v1]和I2=[μ2,v2],它们的交Inter(I1,I2)满足:Inter(I1,I2)=[max(μ1,μ2),min(ν1,ν2)]定义{I1,I2}的闭包为Closure({I1,I2})=n个实区间的闭包算子可表示如下:Closure({I1,I2,…,In})=Closure({Closure({I1,I2}),…,In})在此基础上,定义两个实区间集D={I1,I2,…,Ir}和的并运算和交运算分别为定义2[6] 设U={x1,x2,…,xn}是一个维度为n的对象集,A是R上所有实区间组成的集合,P(A)是A的幂集。

U上的一个实集通过其特征函数来定义,即均为实区间集,每个表明了元素xi在实集中的所有可能的取值。

则可表示为并记U上所有实值构成的集合为R(U)。

一般地,假设每个中的实区间均两两不相交。

为了简洁起见,与记为等价,并把U上的实空集表示为:集合中的交运算和并运算也同样适用于实集,实集中有两种交(并)运算,分别为L-交(并)和S-交(并)。

下面给出定义[7]。

设为U={x1,x2,…,xn}上的两个实集,称主要小于记为如果对任意的存在使得μ′≤μ且ν′≥ν;称主要包含于记作如果对任意的xi∈U,有成立和的L-交,L-并分别定义为其次,介绍S-交和S-并。

称严格小于记为如果对任意的存在使得μ≤μ′且ν≥ν′;称严格包含于记作如果对任意的xi∈U,有成立和的S-交,S-并分别定义为1.2 实值形式背景与实概念格设U={x1,x2,…,xn}为一个非空有限对象集,A={a1,a2,…,am}为一个非空有限属性集。

定义在笛卡尔积U×A上的一个实二元关系是指它的每个关系值均为实区间集,即对任意的是一个实区间集。

定义3[8] 称三元组为一个实值形式背景,如果是U×A上的一个实二元关系。

例1 表1给出了一个实值形式背景。

表1 实值形式背景abcd x1{[5,7],[8,9]}{[10,11]}{[7,9],[11,14]}{[5,8]}x2{[6,8]}{[7,9],[11,12]}{[9,12],[14,17]}{[4,4],[7,8]}x3{[9,11]}{[8,10]}{[10,12]}{[1,5]} x4{[10,11]}{[9,10]}{[9,10]}{[1,5]}设为实值形式背景,X⊆U。

对任意的a∈A,记:可以看出,f(a)是由取并得到的一个实区间集,即f(a)包含且仅包含a属性下所有对象对应的实区间;g(a)是由取交得到的一个实区间集,即g(a)包含且仅包含a属性下所有对象对应实区间的交集。

定义4[6] 设为实值形式背景,P(U)是U的幂集。

算子∧,↑:P(U)→R(A)和∨,↓:R(A)→P(U)定义为:(∀X∈P(U))∀(∀(∀X∈P(U))∀(∀从上式中可以看出,X∧是A上的一个实集,它的每个特征函数值为是使得每个均主要小于的对象x全体构成的集合。

X↑和B↓可类似地进行解释。

利用上述4个算子,可以定义两种实概念[3]:L-实概念和S-实概念。

具体地,对于如果有且则称序对为的一个L-实概念;如果有且则称序对为的一个S-实概念。

与传统的概念格相似,这里不论是L-实概念还是S-实概念,都称X为的外延,为的内涵[6]。

继而,根据上述判断条件,可以得到表1中实值形式背景的所有满足条件的L-实概念:根据前面的讨论,对于实值形式背景,可构造两类实概念格:L-实概念格和S-实概念格。

然而,这两种概念格框架的构建及相关讨论是类似的,故在此只给出基于L-实概念格构建的背景属性框架。

需要指出的是,只要将该约简框架的中所有与L-实概念格相关的符号都替换为S-实概念格中相应的符号,就可以得到基于S-实概念格构建的实值形式属性背景框架。

1.3 概念格的构造算法概念格的构造过程实际上就是概念聚类的过程,概念格一个重要的属性就是其完备性使得对于同样的一个数据集,每次生成的格都是唯一的,即对象、属性的排列顺序和格构造算法均不会影响其构造的结果。

因此,现有的关于概念格的构造算法都是为了提高建格的效率,减少建格的复杂度而设计的[9]。

经典形式背景概念格的串行构造算法大致可分为两类:批处理算法、渐进式算法。

批处理算法主要思想:首先要生成所有的格节点,即原形式背景中所有的概念的集合,然后根据它们之间的前驱-后继关系生成边,完成格的构造。

比较经典的有Bordat算法[10-11]。

相关主题