第28卷 第4期2010年4月科 学 学 研 究S t u d i e s i nS c i e n c e o f S c i e n c e V o l .28N o .4A p r .2010文章编号:1003-2053(2010)04-0508-07基于聚类-因子分析的科技评价指标体系构建顾雪松,迟国泰,程 鹤(大连理工大学管理学院,辽宁大连116024)摘 要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,从科技投入、科技产出、科技对经济与社会的影响三个方面海选科学技术评价指标,利用R 聚类与因子分析相结合的方法定量筛选指标,构建了科学技术综合评价指标体系。
本文的创新与特色:一是通过R 聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。
二是通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最显著、又避免了同一类指标的信息重复。
三是研究结果表明,最终建立的指标体系用18%的指标反映了98%的原始信息。
四是通过科技进步贡献率、万元G D P 综合能耗等指标反映了全面、协调与可持续发展的科学发展内涵。
五是在国际权威机构典型观点高频指标基础上进行客观数据筛选的指标体系,兼具专家知识和客观实际的双重信息。
关键词:科技评价体系;科技评价指标;科学发展;指标体系中图分类号:N 945.16;F 204 文献标识码:A 收稿日期:2009-06-11;修回日期:2009-10-19 基金项目:国家社会科学基金重大项目(06&Z D 039);大连理工大学人文社会科学研究基金重大项目(D U T H S 2007101) 作者简介:顾雪松(1984-),男,辽宁抚顺人,硕士研究生,研究方向为复杂系统评价。
迟国泰(1955-),男,黑龙江海伦人,教授、博士生导师,博士,研究方向为复杂系统评价。
程 鹤(1983-),女,吉林松原人,博士研究生,研究方向为复杂系统评价。
科学技术评价指标体系的构建是根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,筛选出对科学技术评价有重要影响的代表性指标。
建立合理的指标体系是科学技术评价的关键。
如果指标体系不合理,则无论采用什么评价方法,评价结果都不会有任何意义。
(1)科学技术评价指标体系的研究现状一是国外权威机构的评价指标体系。
代表性的有经济合作与发展组织(O E C D )[1]、瑞士洛桑国际管理研究院(I M D )[2]、世界银行(W o r l dB a n k )[3]等建立的科学技术评价指标体系。
二是国内权威机构的科技评价指标体系。
代表性的有中国科学技术部建立的科技发展评价指标体系[4]。
以上两类指标体系虽然权威性强,但是偏向于宏观层面各个国家科学技术综合竞争力的评价,不适合不同一国之内不同地区微观层面的评价。
三是学术文献整理得出的评价体系。
代表性的有唐炎钊建立的区域科技创新评价指标体系[5]。
吴强等用文献聚合分析建立的科技评价指标体系[6]。
T i s d e l l C l e m 等针对中国的科技体制改革建立的科技评价指标体系[7]。
S h i n i c h i K o b a y a s h i 等在日本建立的科技评价指标体系[8]。
H a r i o l f G r u p p 等建立的评价国家科技政策的指标体系[9]。
这类指标体系存在反映同一科技信息的多个重复指标,指标体系庞杂。
(2)科学技术评价指标筛选方法的研究现状一是基于专家经验的主观筛选方法。
孙兰学从科学技术评价的内涵出发对科技创新评价指标进行筛选[10]。
专家主观筛选法存在的问题是单纯依靠指标的含义和个人经验,主观随意性强。
二是客观的评价指标筛选方法。
范柏乃等对城市技术创新能力评价指标进行筛选[11]。
郭冰洋筛选农业科技现代化评价指标[12]。
赵金楼等建立了科技创新型企业评价指标阶段式综合筛选方法[13]。
客观筛选法存在的问题是过度依赖于指标数据,忽略了指标的实际含义。
DOI :10.16192/j .cn ki .1003-2053.2010.04.021 第4期顾雪松迟国泰程 鹤:基于聚类-因子分析的科技评价指标体系构建针对上述问题,本文在根据科学技术评价的内涵海选与初筛指标的基础上,利用R聚类和因子分析定量筛选指标,建立了科学技术评价指标体系。
1 科学技术评价指标体系的构建原理1.1 国际权威机构典型观点高频指标的海选思路(1)准则层的设置:通过设置科技投入、科技产出两个准则层来体现国际权威机构经典观点的高频指标[1-4]原则。
通过设置科技对经济与社会的影响准则层来体现全面协调与可持续发展原则。
(2)指标的选取:通过R&D经费、R&D经费/G D P等指标反映国际权威机构经典观点的高频指标[1-4]原则,通过科技进步贡献率等指标反映全面与协调发展原则,通过万元G D P综合能耗、工业固体废物综合利用率等指标反映可持续发展原则。
1.2 科学技术评价指标的可观测性原则根据可观测性原则初步筛选指标。
删除海选指标中数据无法获得的评价指标,使初步筛选后的指标满足可观测性,能够实际应用。
1.3 指标客观数据的聚类与因子分析筛选思路(1)通过R聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。
(2)通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最大,又避免了同一类指标的信息重复。
科学技术评价指标体系构建原理如图1所示。
图1 科学技术评价指标体系构建的原理2 科学技术评价指标体系构建的方法2.1 科学技术评价指标的海选以国际权威机构经典观点的高频指标[1-4]为重点,结合文献梳理[5-12]和调查研究进行指标的海选。
根据可观测性原则将数据无法获得的海选指标删除,保证初步筛选后的指标体系可以量化。
2.2 指标筛选前的数据标准化(1)正向指标的标准化正向指标指数值越大表明科技发展越好的指标。
设:p i j–第j个评价对象第i个指标标准化后的值;V i j–第j个评价对象第i个指标的值;n–被评价的对象数。
根据正向指标标准化公式,p i j为[15]:p i j=V i j-m i n1≤j≤n(V i j)m a x1≤j≤n(V i j)-m i n1≤j≤n(V i j)(1) (2)负向指标的标准化负向指标指数值越小表明科技发展越好的指标。
负向指标标准化公式为[15]:p i j=m a x1≤j≤n(V i j)-V i jm a x1≤i≤n(V i j)-m i n1≤j≤n(V i j)(2) 式(2)各个符号的含义与式(1)相同。
2.3 指标类别提取的R聚类(1)通过R聚类划分每一个准则层下的指标类别与数量一是将反映信息重复的指标归为一类,使不同的类代表科技评价的不同方面。
二是保留每一类指标中信息含量(因子载荷)最大的一个指标。
这就既保证了从不同的类中筛选出的指标反映信息不重复,又保证了筛选后的指标体系能够全面覆盖科技评价的各个方面。
对准则层内的指标聚类而不对整个指标体系聚类的原因是:定量的聚类方法根据数据关系对指标分类而没有考虑指标的实际含义,按准则层聚类保·509·科 学 学 研 究第28卷 证了聚类指标在含义上有关联,避免了将数据相关性强但含义上毫无关联的指标聚为一类。
(2)R 聚类的基本模型采用离差平方和法对评价指标R 聚类。
设:把n 个评价指标分成l 类;S i -第i 类的离差平方和(i =1,2,…,l );n i -第i 类的评价指标个数;X i (j )-第i 类中的第j 个评价指标标准化后的样本值向量(j =1,2,…,n i ); X i -第i 类指标的样本平均值向量,则第i 类的离差平方和S i 为[16]:S i =∑n i j =1(X (j )i- X i )′(X (j )i- X i)(3) k 个类的总离差平方和S 为[16]:S=∑ki =1∑nij =1(X (j )i - X i )′(X (j )i- X i)(4) 离差平方和聚类法的具体步骤[16]:①将n 个评价指标看成n 个类。
②将n 个评价指标中任意两个合并成一类其他不变,这样有n (n -1)/2种合并方案。
根据式(6)计算各合并方案的总离差平方和,按总离差平方和最小的合并方案进行新的分类。
③重复步骤②直到最后分类数目为l 。
(3)聚类数目的确定聚类分析的分类数目l 一般人为给定,为了避免分类数目确定的主观随意性,对聚类后每一类的指标进行非参数K-W 检验[12]以判断聚类数目l 的合理性。
非参数K-W 检验的原假设是不同的指标在数值特征上无显著差异。
检验聚类数目合理性的做法是:对聚类后每一类的指标进行K-W 检验,如果每一类的显著性水平S i g >0.05,则接受原假设,即同一类指标间无显著差异,聚类数目合理;如果某一类的显著性水平S i g ≤0.05,则拒绝原假设,即同一类指标间有显著差异,聚类数目不合理。
2.4 信息含量最大指标筛选的因子分析(1)因子分析的基本模型因子分析的实质是将观测指标表示为少数“公因子”的线性组合。
因子分析的模型为[17]:X i =a i 1F 1+a i 2F 2+...+a i k F k +εi(5) 其中,X i (i =1,2,…,m )-第i 个指标;F j (j =1,2,…,k )-第j 个公因子;αi j -第i 个指标在第j 个公因子上的负载,称为因子载荷;εi -只影响指标X i 的特殊因子;k -公因子个数;m-指标个数。
因子分析的具体步骤[17]:①求标准化指标值的相关系数矩阵R m×m 。
②求矩阵R 的特征值λj (j =1,2,…,m ),λj 表示第j 个公因子F j 所解释的原始指标数据的总方差,则公因子F j 对原始指标数据的方差贡献率w j 为:w j =λj /∑mj =1λj(6) ③将特征值λj 按从大到小的顺序排列,根据累计方差贡献率≥85%的要求选取前k 个特征值对应的公因子建立因子分析模型,λj 与αi j 的关系为:λj =∑mi =1a 2i j(7) (2)因子分析对评价指标的筛选因子载荷的绝对值 αi j 反映了指标i 与公因子的相关性, αi j 越大表明指标i 对评价结果的影响越显著,越应当保留; αi j 越小则表明指标对评价结果的影响越弱,越应当剔除。
因子分析保证了用少量在公因子上载荷大的指标有代表性的反映原始信息。
在R 聚类的基础上用因子分析筛选指标与现有研究[10-13]的差别及特色在于:一是每一类中只选择一个因子载荷最大的指标而剔除其它指标,解决了单纯剔除少量相关系数极大的指标导致筛选后的指标仍然存在信息重复的问题;二是在每一类中均有指标入选,解决了筛选后的指标所反映的信息无法覆盖评价的所有方面的问题。