第24卷第1期2009年2月柳 州 师 专 学 报Journal of Liuzhou Teachers College Vol 124No 11Feb 12009 [收稿日期]2008-11-10 [基金项目]广西青年科学基金(0832092) [作者简介]吴春梅(1970—),女,讲师,研究方向:计算机应用和神经网络应用;罗芳琼(1971—),女(壮族),广西忻城人,讲师。
投影寻踪技术的理论及应用研究进展吴春梅,罗芳琼(柳州师范高等专科学校数学与计算机科学系,广西柳州 545004) 摘 要:投影寻踪技术是国际统计界于70年代中期发展起来的、用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。
它利用计算机直接对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,达到研究分析高维数据的目的。
本文对30多年来投影寻踪技术在应用领域方面的文献进行收集整理,探讨投影寻踪技术在相关领域的应用和发展状况,为从事投影寻踪研究或应用的专业人员获取和利用相关信息提供线索和参考。
关键词:投影寻踪;岭函数;回归分析 中图分类号: TP30116 文献标识码: A 文章编号: 1003-7020(2009)01-0120-060 前言近三十多年来,随着计算技术的发展和计算机的普及,国际统计界发展了一类处理和分析高维数据的新兴统计方法———投影寻踪(Projection Pursuit ,简称PP )法,它是采用“审视数据→模拟→预测”探索性数据分析(Exploratory Data Analysis ,简称EDA )的新途径[1],适宜于非线性、非正态分布数据的处理,并能避免“维数祸根”,因为投影寻踪技术不需要人为地把高维数据整理成知识、构造成数据库进行训练后再推理,而是直接利用计算机对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,它具有稳健性、抗干扰性和准确度高等优点,因此在许多领域获得成功应用[2-3]。
1 投影寻踪技术的产生背景与实现方法111 投影寻踪技术的产生背景随着科学技术的发展,高维数据的统计分析越来越普遍,也愈来愈重要。
多元分析方法是解决这类问题的有力工具。
但传统的多元分析方法是建立在总体服从某种分布比如正态分布这个假定基础之上的,采用所谓的“对数据结构或分布特征作某种假定———按照一定准则寻找最优模拟———对建立的模型进行证实”,也就是“假定—模拟—检验”这样一种证实性数据分析法(C onfirmatory Data Analysis ,简称CDA )。
但实际问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。
不过,当数据维数很高时,这些方法都将面临一些困难:(1)随着维数增加,计算量迅速增大;(2)对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”,非参数法也很难使用;(3)低维稳健性好的统计方法用到高维时稳健性变差。
因此,当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,传统的CDA 方法很难收到好的效果。
其原因是它过于形式化、数学化,受束缚大,难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
为了克服上述困难,需要对客观数据不作假定或只作极少假定,而采用“直接审视数据———通过计算机模拟数据结构———检验”这样一种探索性数据分析方法。
而PP 就是实现这种新思维的一条行之有效的途径。
PP 最早由Kruskal 在70年代初提出并进行试验。
他把高维数据投影到低维空间,发现数据的聚类结构和解决化石分类问题[4-5]。
随后Friedman 和Tukey 提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP 概念[6]。
1981年,Friedman 等人相继提出了PP回归,PP 分类和PP 密度估计[7],Donoh 则提出了用21Shannan 熵作投影指标的方法,并利用PP 的基本思想给出了多元位置和散布的一类仿射同变估计。
Di 2aeonis ,Friedma 和Jones 还讨论了PP 的其他有关理论问题[8-10]。
Huber 在1985年对上述工作和结果作了概括和总结[11]。
我国学者成平等1985年证明了PP 密度估计的一个收敛性问题,并于1987年给出了PP 经验分布的极限分布[12]。
他们还对多元位置和散布的PP 型估计性质进行了讨论[13]。
陈忠琏和李国英等于1986年用PP 方法给出了散布阵和主成分的一类稳健估计[14]。
陈家骅在1986年证明了密度PP 估计的一个极限定理。
宋立新和成平于1996年提出的关于PP 回归逼近的均方收敛性,回答了Hu 2ber1985年的猜想[15]。
与此同时,郑祖国等从1985年起进行了PP 的应用开发研究,成功地完成了投影寻踪回归(PPR )和投影寻踪时序(PP TS )软件包的程序设计,对大量实例进行了验算,这些都是有益的工作。
112 投影寻踪技术的基本思想及其实现方法11211 投影寻踪技术的基本思想投影寻踪是一种用来处理和分析高维数据,既可作探索性分析,又可作确定性分析的有效方法,其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
11212 投影寻踪技术的实现方法 用PP 探索高维数据的结构或特征时,一般采用迭代模式。
首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。
这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型。
再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。
由于PP 是一种数据分析的新思维方式,因此将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很多新的分析方法。
例如投影寻踪回归PPR 分析模型,其实现方法如下:设Y =f (X )和X =(x 1,x 2,…,x p )分别是一维和p 维随机变量,为了能客观反映高维非线性数据结构特征,投影寻踪回归采用一系列岭函数的“和”去逼近回归函数,即f (X )≈∑Mm =1G m (Z m )=∑Mm =1G m (a T m X )=∑Mm =1G (∑pj =1a mj x j )(1)其中,G m (Z m )为第m 个岭函数,M 为岭函数的个数;Z m =a T m X 为岭函数的自变量,它是p 维随机变量X 在a m 方向上的投影,a m 为投影方向。
投影寻踪回归模型仍采用最小二乘法作为极小化判别准则,即选择式(1)中的参数a mj 和岭函数个数M 的适当组合,使下式LL =min E[Y -∑Mm =1G m (∑pj =1a mj x j )]2(2)达到极小,即要求Z m =a Tm X 最大化。
目前建立投影寻踪回归模型一般采用Friedman 和Stuetzle 提出的多重平滑回归技术[16],鉴于该方法涉及许多复杂的数学知识,不易编程,这在很大程度上限制了投影寻踪技术的广泛应用。
为此,采用遗传算法(G A )来求解较为方便。
2 投影寻踪技术的特点PP 方法的特点主要有:(1)PP 方法成功克服了高维数据所造成的“维数祸根”困难,是对传统CDA 法的突破。
(2)PP 方法使用了降维手段,当维数较高时,数据结构常表现在几个投影方向上。
PP 法正好能找出反映数据结构的投影方向,而排除了那些与结构无关的投影方向上的数据的干扰作用,因此,它能有效地发现高维数值的结构和特征。
(3)由于PP 方法采用了EDA 法,与传统的CDA法相比,它在处理数据时,无须人为假定,不会损失大量有用的信息,能自动找出数据内在规律,因此稳健性较好。
(4)PP 方法虽然以数据线性投影为基础,但它寻找的是线性投影中的非线性结构,因此,它可用来解决一定程度的非线性问题。
PP 的不足之处是计算量大。
此外能解决的问题有限,对于具有很凹的等高线的密度或等高线是若干个同心球面的密度,效果不太好。
3 投影寻踪技术的应用研究进展PP 法与传统的CDA 法相比,虽然有不少优越性,但是由于PP 是一种数据分析的新思维方式,PP 法也不能取代传统的CDA 法,而只能说PP 法为分析数据增添了新的有力工具而已。
因此只有将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,即在常规分析方法中引进PP 思想,才会产生新的方法[17],获得意想不到的结果。
正因为如此,PP 技术不仅吸引了统计理论的数学工作者,也引起了众多领域的应用科技工作者的兴趣。
投影寻踪技术的研究和应用在国内已经历了30余年的发展时间,虽然在前期较缓慢,但进入20世纪90年代后,文献量逐年提高。
早期的文献基本属于数学、概率论与数理统计等基础学科,随后逐渐应用于环境质量评价与环境监测、地球物理学、水资源调查与水利规划、大气科学、农业基础科学等自然科学121领域,近几年,基础科学研究文献量增速有所下降,而应用研究领域文献量增速上升,在社会科学领域应用的文献有所增加。
本文就30多年来投影寻踪技术的应用领域方面的文献进行收集整理,探讨投影寻踪技术在相关领域的应用和发展状况,为从事投影寻踪研究或应用的专业人员获取和利用相关信息提供线索和参考。
311 投影寻踪技术在环境质量评价与环境监测方面的应用张学喜等[18]针对边坡稳定性评价的多因素问题,建立了基于加速遗传算法的投影寻踪评价模型,并给出了相应的算法和步骤;实例表明该评价模型是有效可行的和通用的,可以应用于其他评价问题。
徐伟等用PPR建立了国民经济发展的“积累”和“消费”模型,其模型的精度优于L S方法建立的线性回归模型[19]。
陈青君[20]等最近还将PPR技术对光合速率及其相关因子进行了分析,结果表明PPR技术能够处理大量的多因子数据,快速寻找各个时期影响光合速率的主要因子及其影响程度,为生产中增施CO2气肥、调控温度管理指标提供了可靠的理论依据。
彭荔红、李祚泳、郑文教、肖金树等[21]应用投影寻踪回归新技术,建立了大气污染物SO2浓度的预测模型,其预测建模样本的拟合合格率为96%,预留预测检验样本预测准确率为80%,高于模糊识别模型的预测精度。
段沛霞、倪长健等[22]首次依据动态聚类思想,建立了投影寻踪动态聚类模型,并将方法用于四川省生态环境质量综合评价中,该方法克服了在实际应用中密度窗宽取值难以确定及聚类结果依赖主观判断等弱点,结果更具可观性,为生态环境质量评价提供了科学依据,是评价生态环境质量的有效方法。