收稿日期:20131216基金项目:山东大学自主创新基金项目“决定全要素生产率增长的因素”(IFW09135)。
作者简介:陈强,山东大学经济学院教授(济南250100);李晶,建信人寿保险有限公司德州中心支公司(德州253000)。
① 参见网页http://science.thomsonreuters.com/nobel/。
② Bernard,A.andM.Busse,2004,“WhoWinstheOlympicGames:EconomicResourcesandMedalTotals”,ReviewofEconomicsandStatistics,86(1),413417.③ 由于此比例一定大于零,故使用Tobit模型。
④ Johnson,D.andA.Ali,2004,“ATaleofTwoSeasons:ParticipationandSuccessattheSummerandWinterOlympicGames,”SocialScienceQuarterly,85(4),974993.中国离诺贝尔科技奖还有多远:来自跨国面板数据的启示陈 强 李 晶摘要:中国本土科学家一直无缘诺贝尔科技奖,导致国民强烈的诺贝尔奖情结。
通过一个包含125个国家或地区、19602010年的跨国非平衡面板数据集,使用随机效应的面板Logit模型,估计了决定诺贝尔科技奖与经济学奖得奖概率的经验模型,发现人口、人均GDP、人均高等教育年限以及人均寿命均有显著的正效应。
模型的预测结果显示,中国目前获得诺贝尔科技奖或经济学奖仍是小概率事件,但获奖概率在未来20年内将明显上升。
关键词:诺贝尔科技奖;预测;跨国面板自改革开放以来,中国大陆的科研实力取得了长足的进步,但至今依然无缘全球科技界的最高奖项—诺贝尔奖。
这一事实导致中国民众强烈的“诺贝尔奖情结”。
有关“中国距离诺贝尔奖究竟有多远”之类的话题不时见诸报端。
2008年1月,诺贝尔物理奖评选委员会委员BorjeJohansson在复旦大学预言,中国将在2025年内首获诺奖。
2010年10月,华裔诺奖得主杨振宁在硅谷清华论坛上预测,中国可能在20年内出现一位诺贝尔奖得主。
2010年斯坦福大学校长约翰・汉尼诗在旧金山更是具体地断言,中国诺奖得主将会在近期回国的年轻学者中产生。
而国家科技最高奖得主徐光宪院士于2009年也曾大胆预言,中国将在2060年成为诺奖大国、强国,与美国平分秋色。
由于以上种种预测较为主观,故本文试图利用跨国面板数据,较为客观地来做出预测。
本文使用的预测变量为人口、人均GDP、人均高等教育年限、以及人均寿命,包括了全世界125个国家或地区、从1960年至2010年的非平衡面板数据。
鉴于诺贝尔文学奖更多涉及价值观、审美标准及阅读爱好等方面,而和平奖更多牵扯到政治、人文因素,故本文中的诺贝尔奖特指科技奖和经济学奖两大类奖项。
本文的主要结论为,解释变量人口、人均GDP、人均高等教育年限与人均寿命均有显著的正效应。
根据预测结果,中国获得诺贝尔科技奖的概率将从2011年的5%上升到2030年的35%;而获得诺贝尔经济学奖的概率将从2011年的8%上升到2030年的14%。
与本文相关的一个研究是,自从1989年以来,汤森路透(ThomsonReuter)通过研究学者文章的引用情况来预测可能获得诺贝尔奖的个人(citationlaureates)①,但并未从国家层面进行研究。
在方法论与精神上,本文与近年来预测各国奥运奖牌数的系列文献有相通之处。
BernardandBusse(2004)②通过Tobit模型,使用人口、人均GDP、东道主虚拟变量、前苏联与东欧虚拟变量,来解释各国占奥运奖牌总数的比例③。
JohnsonandAli(2004)④使用面板OLS进行了类似的估计,但被解释44山东大学学报(哲学社会科学版)2014年第4期第044051页云投稿:www.yuntougao.com 文献下载 QQ:1105885881变量为各国的奖牌数而非比例。
BartneckandRauterberg(2008)①首次使用计数模型预测各国奥运奖牌数,并增加了解释变量。
本文其余部分的结构安排如下。
第一部分为计量模型,第二部分介绍数据,第三部分汇报回归结果与预测,第四部分为对策分析及结论。
一、计量模型虽然一国获得诺贝尔奖的个数为非负整数(0,1,2,……),但上限为12(共有物理、化学、生理学或医学、经济学四个奖项,每个奖项最多由3人分享),故并不完全适用计数模型。
对于绝大多数国家而言,在某一年获得诺奖的个数要么为0、要么为1,极少能取值为2或更多,故将获得诺奖的个数简化为虚拟变量yit(=0,未获诺奖;=1,获得诺奖),并使用二值选择模型进行分析。
由于面板Probit无法得到固定效应模型的一致估计,为了便于对混合回归、随机效应与固定效应模型进行比较,故本文使用面板Logit模型。
一个国家在某年获得诺奖的概率取决于若干年内该国的科研产出,而这些年内的科研产出又取决于若干年前的科研投入。
基于数据的可获得性及长度,选择以下变量为解释变量:总人口(pop,人越多,则越多人可从事科研)、人均GDP(gdp,经济发展水平越高,则可投入的R&D越多)、人均高等教育年限(tertiary,研发取决于人力资本,而非普通劳动力)、平均寿命(longevity,诺奖仅颁给健在的学者)。
记xit=popitgdpittertiaryitlongevityit′,则面板Logit模型可以写为,P(yit=1|xi,t‐p,ui)=eui+x′i,t‐pβ1+ei+x′i,t‐pβ(1)其中,yit为是否获得诺奖,ui为个体效应,xit不含常数项,i表示国家,t表示年份,而p为滞后期数(包含科研投入转化为科研成果的滞后期、以及科研成果为诺奖委员会认可的滞后期)。
在本研究中,取p=25年,以达到最佳的模型拟合效果(以样本内正确预测的比例来衡量)。
对滞后期p的这一设定与常识相符,且与许多学者的认识一致,比如诺奖委员会成员BorjeJohansson认为,取得诺奖需要2025年的努力;而汤森路透使用过去30年的论文引用情况来预测即将获诺奖的个人。
本文的主要结果对于滞后期p的取值也不敏感。
由于选择了25年滞后期,使得解释变量的选择受到限制。
比如,可能的解释变量还包括:R&D占GDP的比重(OECD提供了41个国家或地区,19812007年的年度数据)、每百万人口的科研人员数(世界银行提供了101个国家或地区,19962007年的年度数据);却由于时间维度过短而无法包括。
由于解释变量人均GDP、人均寿命均与R&D比重、科研人员数有较强的正相关关系(相关系数介于0.50.7之间),故在一定程度上前二者可以视为后二者的代理变量(proxies)。
而且,虽然遗漏变量可能导致估计系数不一致,但本文的目的主要是预测,并非估计因果关系。
由于诺贝尔奖牌个数有限,故一个国家获得诺奖的概率并不仅仅取决于该国科研投入的绝对量,更取决于它相对于世界各国科研投入的相对量。
基于美国独一无二的科研强国与诺奖大国地位,以上所有解释变量均采用相对于美国的相对量。
对于方程(1)的估计,如果不存在个体效应,即对于任意i,都有ui=u-,则为面板混合回归模型。
如果存在个体效应,且ui与所有解释变量xit均不相关,则为随机效应模型;如果ui与某个解释变量相关,则为固定效应模型。
对于随机效应模型,假设ui服从正态分布,进行最大似然估计,得到随机效应Logit估计量。
在54中国离诺贝尔科技奖还有多远:来自跨国面板数据的启示①Bartneck,C.andM.Rauterberg,2008,“TheAsymmetrybetweenDiscoveriesandInventionsintheNobelPrizeinPhysics,”TechnoeticArts:AJournalofSpeculativeResearch,6(1),7377.进行预测时,或令ui=0,或令ui=u-。
显然,ui=0并不合理,故本文在使用方程(1)进行预测时,令ui=u -。
当t≠s时,复合扰动项(ui+εit)的自相关系数为ρ≡Corr(ui+εit,ui+εis)=σ2uσ2uσ2ε(2)如果ρ=0,则说明σ2u=0,不存在个体随机效应。
对于原假设H0:ρ=0,可进行似然比检验。
对于固定效应模型,由于个体效应ui与某个解释变量xit相关,故使用随机效应模型或混合回归将得到不一致的估计。
可使用∑Tt=1yit作为ui的充分统计量,并计算在给定∑Tt=1yit情况下的条件似然函数,即条件最大似然估计法。
所有∑Tt=1yit=0(意味着yi1=…=yiT=0)或∑Tt=1yit=T(意味着yi1=…=yiT=1)的观测值并不包含待估参数β的信息,在进行固定效应的面板Logit估计时将损失这些观测值,导致样本容量减少。
在本研究中,由于许多国家从未得过诺奖,即∑Tt=1yit=0,故使用固定效应模型将损失很多样本容量。
至于究竟使用固定效应还是随机效应模型,可进行豪斯曼检验。
二、数据说明本文的研究对象为125个国家或地区、从1960年到2010年共51年数据组成的跨国非平衡面板,下面分别就变量的来源及处理进行说明。
所有解释变量均采用相对于美国的相对量。
1.虚拟变量“是否获得诺奖”:一国获得诺贝尔奖牌数的原始数据来源于诺贝尔官网①。
科学家的国籍归属均按其获奖研究的完成所在地(而非国籍)来计算。
由于科技奖和经济学奖的获奖规律可能不同,故对一国的获奖情况分两类进行统计,一类为科技奖(含化学、物理、生理医学),而另一类为经济学奖②。
然后,再将获奖个数简化为两个虚拟变量,即是否获得科技奖(d_tech)与是否获得经济学奖(d_econ)。
2.人口指标pop和实际人均GDP指标gdp的原始数据来自于PennWorldTable(PWT6.3)。
对于实际人均GDP,PWT6.3除了提供传统的“rgdpl”指标外,还提供“rgdpl2”指标作为备选。
Johnsonetal(2009)③发现,使用传统的“rgdpl”指标,会导致不同版本的PennWorldTable之间的数据缺乏可比性与一致性,为此PWT6.3推出改进版的“rgdpl2”指标。
对于本文的结果而言,无论使用“rgdpl”还是“rgdpl2”,差别甚微。
由于“rgdpl2”有更好的理论基础且拟合效果略好,故选择“rgdpl2”作为实际人均GDP的度量。
3.人均高等教育年限(tertiary,averageyearoftertiaryschooling)的原始数据来源于最新的BarroandLee(2010)④,包含19502010年每隔五年的数据,据此进行线性内插得到年度数据。