2009年第11期 科技管理研究Science and Technol ogyM anage ment Research 2009No 111收稿日期:2009-08-25,修回日期:2009-09-11文章编号:1000-7695(2009)11-0169-03基于主成分分析法的科技投入产出聚类分析秦浩源(华中科技大学管理学院,湖北武汉 430074)摘要:在科技投入与产出指标体系的基础上,利用主成分分析法将指标进行综合,通过区域聚类分析对我国科技经费的配置效果进行评价,为科技体制改革、科技活动的结构调整、科技经费的优化配置和科学管理提供依据。
关键词:科技经费;投入产出;主成分分析法;聚类分析法中图分类号:F223 文献标识码:A1 引言随着科技经济一体化进程的不断加深,科技对经济增长的贡献程度不断提高,各国纷纷加大对科技经费的投入力度以促进科技经济更好更快地协调发展。
在各国科技投入不断增加的同时,科技经费资源的稀缺性、配置的低效性则越来越凸显出来:我国长期以来形成科技经费资源的粗放式投入模式,造成了科技经费配置中的巨大浪费[1-2];较高的科技投入并不能带来高质量的科技成果,等等。
这严重制约了我国科技创新能力的提高,不利于充分发挥科技对经济的支撑和促进作用。
因此,对科技投入产出状况进行研究,提高科技经费配置效率就显得十分必要,这对缓解我国科技投入压力、提高我国的科技创新能力和科技竞争力具有极其重要的现实意义。
2 指标体系及数据获取在进行指标选取时,分别考虑科技经费投入、科技活动产出以及两者的关系。
科技经费投入指标主要考虑各种科技财力资源,而科技产出指标主要包括知识形态的成果和科技转化成果。
因此,在指标的选取时,注重对统计指标进行研究,以避免定性分析带来主观影响。
本文选取科技经费投入指标包括:科技经费筹集总额,科技经费中政府投资总额,R&D 经费内部支出总额,R&D 经费内部支出总额与G DP 的比值等;科技活动产出指标包括:发明专利申请受理数,被SC I 、E I 、I STP 检索的论文数,技术市场成交合同金额,高技术产业增加值等。
具体的科技投入产出指标如表1所示。
表1 科技投入产出指标 指标分类 指标名称指标编号科技投入指标科技经费筹集总额(万元)T 1科技经费中政府投资总额(万元)T 2R&D 经费内部支出总额(万元)T 3R&D 经费内部支出总额与G DP 的比值(%)T 4科技产出指标发明专利申请受理数(件)C 1被SC I 、E I 、I STP 检索的论文数(篇)C 2技术市场成交合同金额(万元)C 3高技术产业增加值(万元)C 4 注:所用数据为2007年各地区科技投入产出指标数值,数据来源于《中国统计年鉴2008》和《中国科技统计年鉴2008》。
3 基于主成分分析法的科技投入产出能力指标综合本文采用主成分分析法获得投入产出综合能力指数。
主成分分析法是通过研究指标体系的内在结构关系,将多个指标的问题化为少数指标问题的一种多元统计分析方法,即把原来多个指标转化为一个或几个综合指标,并且这些少量的指标能够包含原来多个指标的绝大部分信息。
(1)主成分分析法的基本步骤1)标准化处理。
标准化处理也即无量纲化,就是针对量纲不同的各指标间不能简单相加的情况,通过变换,用比率的形式来消除量纲不同所带来的影响,使原本不可以直接相加的变量可以相加。
本文采用的无量纲化的计算公式为:指标L 比率=011+019×[(L -L m in )/(L max -L m in )]其中,L max 、L m in 分别表示参加比较的各地区中该指标的最大值和最小值;L 则表示某地区该指标的实际值。
2)通过SPSS 主成分分析选取所选数据主成分,一般要求累计贡献率达到一定要求(如不小于85%)来确定样本主成分个数。
3)用原指标的线性组合来计算各主成分得分[3-4]。
以各主成分对原指标的相关系数为权,即载荷系数为权,将主成分用原指标的线性组合表示,主成分的经济意义由权数较大指标的综合意义决定。
I j =u j 1T 1+u j 2T 2+u j 3T 3+u j 4T 4 (u j 1,u j 2,u j 3,u j 4为主成分对应载荷)O j =v j 1C 1+v j 2C 2+v j 3C 3+v j 4C 4 (v j 1,v j 2,v j 3,v j 4为主成分对应载荷)4)综合得分。
以各主成分方差贡献率为权,进行线性组合得到综合评价指标函数。
I =w 1I 1+w 2I 2+…+w j I j w 1+w 2+…+w jO =w 1O 1+w 2O 2+…+w j O jw 1+w 2+…+w j其中,w j 为主成分占总方差的比例。
5)得分排序。
算出总得分进行名次排序。
(2)科技投入产出能力计算运用SPSS 对标准化后数据进行主成分分析,得到投入指标第一个主成分占总方差的861393%,可代表原来四个指标的全部信息,并且第一主成分在投入指标上的载荷分别为秦浩源:基于主成分分析法的科技投入产出聚类分析01928、01926、01947、01917,反映了四个指标对科技投入影响都很大。
而产出指标前两个主成分占总方差的971359%,可代表原来四个指标的全部信息,并且第一主成分在产出指标上的载荷分别为01938、01886、01843、01719,第二主成分在产出指标上的载荷分别为01320、-01416、-01505、01687。
将主成分得分乘以对应的贡献率,加权求和,可以得到各地区的综合得分,按照东部、中部和西部地区的顺序列入如表2所示。
表2 各地区科技经费投入综合评分地 区投入(I)排名产出(O)排名东部北京3172111771天津11161001677河北017916013719辽宁1119901618上海1195311323江苏2127211204浙江1160501805福建018214014413山东1157601756广东1186411762海南013930012728中部山西017219013222安徽018513014017江西016521013221河南018612014115湖北11041101569湖南017417015011黑龙江017915014314吉林017318014016西部内蒙古014926012926广西015125013025重庆016920013718四川11208015110贵州015224013024云南015523013123陕西11297014812甘肃016422013220青海014529012630宁夏014827012629新疆014528012727西藏0137310125314 区域聚类分析聚类分析是多元统计分析方法之一,有着广泛的应用。
比起定性方法来,聚类方法剔除了个人主观因素,显得更为科学、客观、公正,而且对于处理区域发展中所遇到的这类类比问题更具适用性和广泛性。
(1)动态聚类算法基本过程1)选择聚点。
聚点是一批有代表性的样品,它的选择决定了初始分类,对最终分类有较大影响。
在进行动态聚类前,要根据研究问题的要求及了解程度先定下分类数,这样就可以在每一类中选择一个有代表性的样品作为聚点(初始聚点)[5-6]。
用于确定聚类成员的算法,是由最邻近的聚点计算的,即将样品分配到有最小距离的聚类中。
所谓最小距离是指该样品与聚点离得最近。
2)根据最大最小原则,即先找出最大和最小(距离最远)的聚点,设要将样品分为k类,先选择所有样品中相距最远的两个样品xi1和xi2为前两个聚点,即选择xi1和xi2,使d(xi1,xi2)=di1i2=max{dij}式(1)然后选择第3个聚点,使得xi3与前两个聚点的距离最小者等于所有其余的与xi1,x i2的较小距离中最大的,用公式表示为:m in{d(xi3,x ir)r=1,2}=max{m in[d(xj,x ir)r=1,2],j≠i1,i2}式(2)然后按相同的原则选取xi4,依此下去,直至选定k个聚点x i1,x i2,…,x i4。
选取过程可以用递推公式,若已选了l个聚点,则第l+1个聚点选取的原则为:m in{d(xi l+1,xi r)r=1,2,…,l}=max{m in[d(xj,xi r)r=1,2,…,l],j≠i1,…,ir}式(3)(2)区域聚类分五类对科技经费投入能力进行聚类处理。
其中:北京、江苏为I类,投入能力远高于其他地区;上海、广东属于第II类;浙江和山东属于第III类;陕西、四川、辽宁、天津和湖北属于第I V类;河南、安徽、福建、黑龙江、河北、湖南、吉林、山西、重庆、江西、甘肃、云南、贵州、广西、内蒙古、宁夏、新疆、青海、海南以及西藏属于第V类。
同理,分五类对科技活动产出能力指标进行聚类处理。
其中:北京和广东属于I类;上海、江苏属于第II类;浙江、山东属于第III类;天津、辽宁、湖北、湖南和四川属于第I V类;陕西、福建、黑龙江、河南、吉林、安徽、重庆、河北、甘肃、江西、山西、云南、贵州、广西、内蒙古、新疆、海南、宁夏、青海以及西藏属于第V类。
为了对比研究我国科技经费投入和产出能力的关系,表3从协调性的角度对我国地区科技经费投入能力与产出能力进行了汇总。
表3 科技经费投入产出能力关系表区域地区投入能力排名(类)产出能力排名(类)投入产出能力关系协调性关系东部北京1(I)1(I)I—I适应(高投—高产)天津10(I V)7(I V)I V—I V适应(低投—低产)河北16(V)19(V)V—V适应(低投—低产)辽宁9(I V)8(I V)I V—I V适应(低投—低产)上海3(II)3(II)II—II适应(高投—高产)江苏2(I)4(II)I—II非适应(高投—低产)浙江5(III)5(III)III—III适应(高投—高产)福建14(V)13(V)V—V适应(低投—低产)山东6(III)6(III)III—III适应(高投—高产)广东4(II)2(I)II—I非适应(低投—高产)海南30(V)28(V)V—V适应(低投—低产)中部山西19(V)22(V)V—V适应(低投—低产)安徽13(V)17(V)V—V适应(低投—低产)江西21(V)21(V)V—V适应(低投—低产)河南12(V)15(V)V—V适应(低投—低产)湖北11(I V)9(I V)I V—I V适应(低投—低产)湖南17(V)11(I V)V—I V非适应(低投—高产)黑龙江15(V)14(V)V—V适应(低投—低产)吉林18(V)16(V)V—V适应(低投—低产)071秦浩源:基于主成分分析法的科技投入产出聚类分析 续上表西部内蒙古26(V)26(V)V—V适应(低投—低产)广西25(V)25(V)V—V适应(低投—低产)重庆20(V)18(V)V—V适应(低投—低产)四川8(I V)10(I V)I V—I V适应(低投—低产)贵州24(V)24(V)V—V适应(低投—低产)云南23(V)23(V)V—V适应(低投—低产)陕西7(I V)12(V)I V—V非适应(高投—低产)甘肃22(V)20(V)V—V适应(低投—低产)青海29(V)30(V)V—V适应(低投—低产)宁夏27(V)29(V)V—V适应(低投—低产)新疆28(V)27(V)V—V适应(低投—低产)西藏31(V)31(V)V—V适应(低投—低产) (3)结果分析从表3可以看到,东部、中部、西部科技经费配置效果还是具有比较大的差异。