当前位置:文档之家› 集对分析聚类预测法及其应用_高洁done

集对分析聚类预测法及其应用_高洁done

短 文集对分析聚类预测法及其应用¹高 洁,盛昭瀚(南京大学管理科学与工程研究院,南京210093)摘要:提出一种新的预测方法—集对分析聚类预测法.该方法融合了集对分析中的同异反模式识别的“择近原则”和聚类分析的基本思想进行分类预测.文中将该方法应用于邮电业务总量预测的研究,考虑了邮电业务总量和第一、二、三产业的国内生产总值之间的关系,利用邮电业务总量和三个产业的生产总值的历史数据,建立了邮电业务量水平聚类预测的模型,从而得到邮电业务总量预测结果.利用我国某地区的实际数据进行分析计算,并与其它预测方法比较,结果表明该预测方法是有效的.关键词:集对分析;联系度;聚类预测;邮电业务总量中图分类号:O144 文献标识码:A 文章编号:1000-5781(2002)05-0458-05Method and application of set pair analysis classified predictionGAO Jie,SHENG Zhao-han(Graduate School of M anag ement Science and Engineering,Nanjing University,Nanjing210093,China)Abstract:A new forecasting m ethod,the SPA classified prediction,is proposed in this paper. T he model is used to forecast the business total of posts and telecommunications.T he history da-ta are adopted to set up the connection degrees betw een the classified systems and the reference sy stem.The result of the business total of posts and telecommunications forecast is obtained by applying the classified analysis methods.A set of real data is used,and the result is satisfied. Key words:set pair analy sis;connection deg ree;classified prediction;business total of posts and telecomm unications0 引 言科学的预测是建立在事物发展规律基础上的科学推断,是正确决策的前提和依据.随着科学技术的不断进步,最近20多年来,预测方法和技术有了很大发展.仅就邮电业务总量的预测问题来说,已有许多预测方法[1-5].文[2]利用灰色模型预测邮电业务总量.文[3]提出了利用多元模糊推理方法预测邮电业务总量.文[5]将物元模型与聚类分析方法结合起来,用可拓聚类预测方法预测邮电业务总量.但到目前为止,集对分析理论[6]在邮电业务预测问题上尚无应用.本文提出基于集对联系度的聚类预测方法并应用于邮电业务总量的预测.该方法将邮电业务量与影响业务量变化的社会经济(如第一、二、三产业的国内生产总值)等环境因素联系起来考虑,但同以往的第17卷第5期2002年10月 系 统 工 程 学 报JOU RN A L OF SY STE M S EN GIN EER IN G V ol.17N o.5O ct.,2002¹收稿日期:20010219;修订日期:20020123.基金项目:国家自然科学基金资助项目(70171028).预测方法不同,它并不试图建立邮电业务量与环境因素之间关系的数学表达式,而是将邮电业务量与环境因素作为一个整体进行数据加工.该方法首先应用聚类分析的基本思想对邮电业务量和第一、二、三产业的国内生产总值的历史数据进行样本提炼分类,将业务量与其环境因素的历史样本分成若干典型类别,然后建立这些类别与参照系统所组成集对的同异反联系度。

当给定未来环境因素状态时,建立待预测样本与参照系统之间的联系度,从而判定出未来邮电业务量变化的类型,进而预测出来邮电业务总量。

本文通过对我国某地区有关历史数据的分析和计算,验证了邮电业务总量集对分析聚类预测方法的有效性和实用性。

1 集对分析基本概念集对分析(set pair analysis,SPA)[6]是赵克勤在1989年包头召开的全国系统理论会议上提出的一种新的系统分析方法.它从同、异、反3个方面研究2个事物的确定性与不确定性,全面刻画了2个不同事物的联系.集对分析的实质是一种新的不确定性理论,其核心思想是将确定不确定视为一个确定不确定系统.这个系统中,确定性和不确定性相互联系、相互影响、相互制约,并在一定条件下相互转化,并用一个能充分体现上述思想的联系度L=a+bi+cj来统一地描述模糊、随机、中介和信息不完全所致的各种不确定性,从而把对不确定性的辨证认识转换成一个具体的数学工具.集对分析的基本概念是集对及其联系度.所谓集对,就是具有一定联系的两个集合所组成的对子.按照集对的某一特性展开分析,对集对在该特性上的联系进行分类定量刻划,得到集对在某一问题背景下的联系度表达式:L=a+bi+cj其中,a表示两个集合的同一程度,称为同一度;b 表示两个集合的差异不确定程度,称为差异度;c 表示两个集合的对立程度,称为对立度.i为差异标记符号或相应系数,取值于[-1,1];j为对立标记符号或相应系数,规定取值为- 1.根据定义,a,b,c满足归一化条件a+b+c=1这种刻划是对确定性与不确定性的定量描述,其中:a,c是相对确定的,而b是相对不确定的.这种相对性是由于客观对象的复杂性和可变性,以及对客观对象认识与刻划的主观性和模糊性造成的不确定性.因而(1)式是一种确定不确定结构函数.它体现了确定不确定系统的对立统一关系,具有较深刻的方法论意义.2 基于联系度的集对分析聚类预测法将SPA理论与实际领域的专业知识相结合,使人们按一定的程序或规律去识别待预测事物所属类别从而达到预测目的的方法,称为SPA聚类预测法.具体步骤如下:设待预测的事物为N,相应的待预测系统为B.2.1 确定事物N的分类模式系统设N的可能分类集合为A={A1,A2,…,A n}.2.2 建立描述事物N的分类模式系统与参照系统的同异反联系向量L→k=(a k,b k,c k)表示第k个分类模式系统A k 与参照系统组成集对后得到的同异反联系向量,也可记成联系度L k=a k+b k i+c k j,(k=1,2,…,n).若各分类模式系统A k与m个因素有关,记第k个分类模式系统A k(k=1,2,3)与参照系统组成集对后关于第t个因素(t=1,2,…,m)的同异反联系度为Løk,则相应地有m个联系度L1k,L2k,…, L m k.则联系度L k=a k+b k i+c k j可从这m个联系度得到.若分类系统与参照系统的联系度对各个因素的依赖程度不同,或者说各个因素对分类的重要性有大小之分,以权系数来表示各个因素的重要程度.权系数的大小对于联系度具有举足轻重的作用,不同的权系数会得出不同的结论.因此应尽量合理地确定权系数.权系数记为A=(A1,A2,…,A m),其中: ∑mk=1A k=1此时,联系度L k=a k+b k i+c k j可视为这m—459—2002年10月 高 洁等:集对分析聚类预测法及其应用个联系度L 1k ,L 2k ,…,L mk 的加权平均联系度,其中:a k ,b k ,c k 分别为m 个同一度、差异度、对立度的加权平均值.L k =A 1L 1k +A 2L 2k +…+A m L mk = ∑mi =1Ai L ik (2)2.3 建立描述事物N 的待预测系统B 与参照系统的同异反联系向量L →=(a ,b ,c )对待预测系统B 与参照系统组成集对后得到的同异反联系向量,或记为联系度L =a +bi +cj .2.4 计算同异反距离设Q k (k =1,2,…,n )为同异反联系向量L →k 与L →的距离,称为同异反距离: Q k =(a k -a )2+(b k -b )2+(c k -c )2(3) k =1,2,…,n 2.5 确定待预测系统B 所属的类别比较各个同异反距离Q k (k =1,2,…,n )的大小,若Q k 0=m in(Q 1,Q 2,…,Q n ),则认为待预测系统B 与分类模式系统A k 0最接近,因而可以把B 归入模式A k 0.此即同异反模式识别的择近原则.若记x 0k 为各个分类系统的中心,则B 的预测值可以由下式计算:x =∑n k =1x 0k Q k ∑n k =11Qk (4)3 邮电业务总量的集对分析预测模型3.1 资料处理邮电通信业务的发生、发展和周围的许多因素有关.由于邮电通信在国民经济中的作用,邮电业务发展与第一、二、三产业的国内生产总值有密切联系.考察我国某地区的一、二、三产业的生产总值和邮电业务总量的历史数据(见表1),对一、二、三产业的生产总值进行扣除通货膨胀处理(历年通货膨胀率见表2),再得到一、二、三产业的生产总值和邮电业务总量的年增长率(这里的年增长率定义为该年的值与上年的值之比)见表3.表1 我国某地区一、二、三产业的生产总值和邮电业务总量的历史数据(亿元)年 份19901991199219931994199519961997199819992000第一产业355.17345.14393.82490.59671.94848.35965.291008.411016.271014.461028第二产业692.59793.921119.261598.052186.772715.263074.123411.863640.103906.404439.0第三产业368.74462.32622.94909.521198.681591.641964.802260.072543.582779.703117.7邮电业务量9.8813.1619.8834.5151.7872.2496.03132.52167.78227.18323注:3个产业的国内生产总值按当年价格计算,邮电业务总量以1990年不变价格计算.表2 历年的通货膨胀率年 份1991199219931994199519961997199819992000通货膨胀率104.8105.1115.9123.6114.3106.899.398.296.998.6注:通货膨胀率以上年为100.表3 该地区一、二、三产业的年增长率及邮电业务的年增长率年 份1991199219931994199519961997199819992000第一产业年增长率0.927 1.086 1.075 1.108 1.102 1.065 1.052 1.026 1.030 1.028第二产业年增长率 1.094 1.341 1.232 1.107 1.083 1.060 1.118 1.086 1.107 1.152第三产业年增长率 1.196 1.282 1.260 1.066 1.159 1.156 1.158 1.146 1.128 1.138邮电业务年增长率1.3321.5111.7361.5001.3951.3291.3801.2661.3541.422 根据上述1991~1999年的历史资料为分类样本,该地区邮电业务总量的年增长率在1.20~1.75之间.将样本按邮电业务总量的年增长率分为3类(即n =3).表4给出各类样本的邮电业务增长率范围和3个因子(即3个产业的增长率,m =3)的平均值(x 1、x 2和x 3).—460—系 统 工 程 学 报 第17卷 第5期表4 邮电业务总量年增长率的各分类样本数据类 别增长率取值范 围各类样本数因子均值x1x2x3A1[1.20,1.35)3 1.0061.0801.166 A2[1.35,1.50)3 1.0611.1031.148 A3[1.50,1.75)3 1.0901.2271.203 3.2 建立各类样本与参照系统的联系度记第k个分类样本A k(k=1,2,3)与参照系统(取3个产业的年增长率均为1)组成集对后关于第t个因素(t=1,2,3)的同异反联系度为L t k= a t k+c t k j,其中经过分析,同一度取为a t k=x t/2,对立度采用倒数型对立:c t k=a2/x t.根据表4数据可得如下联系度:L11=0.503+0.199j;L21=0.540+0.185j; L31=0.583+0.172jL12=0.531+0.189j;L22=0.552+0.181j; L32=0.574+0.174jL13=0.545+0.183j;L23=0.614+0.163j; L33=0.602+0.166j(5)这里简化了联系度的表达式L=a+cj,因为b=1-a-c,就可把联系度还原成 L=a+bj+cj根据式(2)、(5)并对3个产业分配相同权重,计算可得分类样本A k(k=1,2,3)与参照系统组成集对后的同异反联系度为L1=0.542+0.273i+0.185jL2=0.552+0.267i+0.181j(6)L3=0.587+0.242i+0.171j3.3 计算待测样本B与参照系统的联系度为了分析集对分析聚类预测法的预测精度,以2000年的一、二、三产业的国内生产总值年增长率之值(1.028,1.152,1.138)为待测样本B的观测值,预测该年的邮电业务总量年增长率之值,并与实际值比较.根据观测值(1.028,1.152,1.138),确定待测样本B与参照系统组成集对后关于第t个因素(t=1,2,3)的同异反联系度为:L1B=0.514+0.195j;L2B=0.576+0.174j; L3B=0.569+0.176j从而可得待测样本B与参照系统组成集对后的同异反联系度为L B=0.553+0.265i+0.182j(7) 3.4 计算同异反距离根据式(3)、(6)、(7)计算待测样本B与各类别样本的同异反距离,见表5.根据同异反模式识别的“择近原则”,预测该地区未来的邮电业务总量年增长率为A2类.表5 同异反距离及预测结果Q1Q2Q3判定类别0.0140.0020.042A23.5 结果分析表5给出该地区2000年的邮电业务总量年增长率的预测结果属于A2类,即年增长率在1.35~1.50之间.根据表5及式(4)计算可得,该地区2000年的邮电业务总量年增长率为1. 415,与当年实际增长率1.422比较,相对误差为0.49%,预测精度较高.若以1991~2000年的一、二、三产业的生产总值年增长率的平均值(1.050,1.138,1.169)为待测样本B的观测值,预测该地区未来几年的邮电业务年增长率,可得Q1=0.022,Q2=0.009, Q3=0.034.由式(4)计算得到邮电业务年增长率为1.419,因而预测该地区2001年的邮电业务总量将达到458亿元.(以1990年不变价格计算).上述分析计算中,对各个环境因素(三个产业)的影响分配了相等的权重.若结合邮电行业的实际情况分配更合理的权重,并对分类样本进一步细分,可使预测的精度更高.3.6 方法比较为与其它预测方法进行比较,本文还对该地区相同的历史数据和资料,分别用多元模糊推理预测法[3]和可拓聚类预测法[5]进行邮电业务总量年增长率预测.表6给出上面3种预测方法的预测结果及与实际值1.422比较的相对误差.表6 几种预测方法的预测结果比较集对分析聚类预测多元模糊推理预测可拓聚类预测聚类结果A2-A2预测值 1.415 1.419 1.395相对误差0.49%0.21% 1.90%—461—2002年10月 高 洁等:集对分析聚类预测法及其应用4 结束语邮电业务总量预测是一项复杂而重要的工作.由于未来邮电业务量的变化要受到诸多因素的影响,而这种影响往往又不能准确、定量地加以描述.传统方法,如线性回归、时间序列以及灰色系统模型,一般不考虑或简化考虑这些影响,所以预测效果往往并不理想.本文根据我国某地区第一、二、三产业的国内生产总值年增长率的历史数据,用集对分析聚数预测方法预测邮电业务总量.该方法弥补了传统方法预测时在计入影响邮电业务量变化因素方面的不足,从而使预测更为科学合理.就这一点来说,该方法可与多元模糊推理预测方法[3]及可拓聚类预测方法[5]媲美.3种方法比较而言,多元模糊推理预测方法可以不断地通过新的数据对模型进行改进,从而使模型具有自学习功能[3],预测结果精度较高.对相同的数据资料用可拓聚类预测法和集对分析聚类预测法预测可得完全相同的结果:A 2类.从预测精度来看,集对分析聚类预测法优于可拓聚类预测法,预测结果的相对误差与多元模糊推理预测法有相同的数量级.另一方面,由于联系度的计算比较简单,用于预测十分简便,具有实用性,而且在构造各类样本与参照系统的集对时,联系度的i ,j 的取值可以根据实际问题的需要加以调整.因此,该方法又具有灵活性.只要通过分析确定出合理的联系度表达式,就可以用集对分析方法对待测样本进行预测.因此,它对建模样本数目的多少没有限制,且预测结果也不会受建模样本数目的影响.文中的实际算例也表明了集对分析聚类预测法的可行性和实用性.参考文献:[1] 张曼军.通信建设工程技术经济分析基础[M ].北京:人民邮电出版社,1992.70-91[2] 吴惠荣.应用灰色模型预测邮电业务总量[J].南京邮电学院学报,1990,10(2):91-94[3] 高 洁.应用多元模糊推理预测方法进行邮电业务总量预测[J].南京邮电学院学报自然科学版,2000,20(1):58-62[4] 高 洁,孙海斌,唐国庆.基于模糊综合评判的电力负荷最优组合预测[J].系统工程学报,2001,16(2):106-110[5] 高 洁.可拓聚类预测方法及其在邮电业务总量预测中的应用[J].系统工程,2000,18(3):73-77[6] 赵克勤.集对分析及其初步应用[M ].杭州:浙江科学技术出版社,2000作者简介:高 洁(1968-),女,辽宁沈阳人,博士生,副教授.研究方向:模糊数学、物元分析、集对分析以及预测理论与方法等.—462—系 统 工 程 学 报 第17卷 第5期。

相关主题