无条件分位数回归:文献综述与应用实例(上)朱平芳张征宇2013-1-7 11:17:39 来源:《统计研究》(京)2012年3期第88~96页内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常用方法之一。
由于CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心的问题有可能并不一致。
例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教育程度的无条件分位数估计。
本文旨在介绍近年来发展起来的无条件分位数回归(unconditional quantile regression,UQR)技术并梳理相关文献。
特别地,本文介绍三种重要的无条件分位数回归模型:Firpo,Fortin和Lemieux(2009)提出的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)提出的无条件分位数处理效应模型与Powell(2010)提出的一般无条件分位数回归。
另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明了新方法的应用。
关键词:条件分位数回归无条件分位数回归 RIF回归处理效应模型作者简介:朱平芳(1961-),男,浙江兰溪人,1987年毕业于上海财经大学应用统计专业,获经济学硕士学位,2005年毕业于上海社会科学院经济研究所,获经济学博士学位,现为上海社会科学院数量经济研究中心主任,研究员,博士生导师,兼任中国数量经济学会常务理事,上海市数量经济学会副理事长兼秘书长,研究方向为科技政策与科技进步;张征宇(1981-),男,浙江宁波人,2006年毕业于复旦大学数学系数学专业,获理学硕士学位,2009年毕业于上海财经大学经济学院数量经济学专业,获经济学博士学位,现为上海社会科学院数量经济研究中心副研究员,兼任上海市数量经济学会理事,研究方向为微观计量经济学。
一、引言自从Koenker和Bassett(1978)提出分位数回归(quantile regression,QR)方法以来,其已发展成为经济学实证研究的常用方法之一。
最初,QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健(robust)估计。
事实上,经济学家们在如今的实证研究,特别是基于微观数据的研究中青睐QR方法,并不在于它的稳健特性,而是可以借此方法了解解释变量对于被解释变量在扰动项的不同分位点上的异质性影响。
通常,人们在评估一项经济政策对受众群体的影响时,不但希望了解政策对任一参与者的平均影响,更希望知道政策对位于特征分布不同位置(分布末端或顶端)人群的异质性作用。
例如,教育对于人们收入的影响作用是劳动经济学中极具争议的问题之一。
由于人的能力不可直接观测,且普遍被认为与个人的收入水平密切相关,因此,工资方程的扰动项很大意义上就是用来包含不可观测的个人能力。
在这种设定下,通过分位点回归,人们可以了解对于不同能力水平的个人,可观测的个体特征如何影响他们的收入。
从以上例子不难理解,Koenker和Bassett(1978)提出的只是条件分位数回归方法。
条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人(例如,具有某一特定年龄,家庭背景的女性),不可观测的能力差异对于收入的异质性影响。
由于CQR的经济学意义阐释基于过多甚至是不必要的个体特征,其结果与政策制定者所关心的问题很有可能并不一致。
例如,人们可能只想了解教育年限对于个人收入的一般边际影响,而无论个体的年龄,性别与家庭背景如何,这就是所谓收入关于教育程度的无条件分位数估计问题。
解决这个问题的一个直觉想法是在计算中抛弃除了教育年限外的其他解释变量,直接用收入对教育年限进行分位数回归,但这种做法得到的无条件分位数不是一致估计。
这一点类似于在最小二乘法中即使研究者只想了解某一解释变量对被解释变量的偏影响系数,遗漏剩余解释变量仍会导致所有系数估计的不一致性,除非遗失变量与所剩变量是正交的。
无条件分位数回归(unconditional quantile regression,UQR)技术正是对于CQR技术的补充和拓展,在基于微观数据的实证研究中,特别是在劳动经济学与经济政策评估中具有十分重要的意义。
在这一前沿领域,国外学者的研究也只是刚刚开始,并且有关无条件分位数回归的理论与方法正在逐渐完善之中。
本文旨在介绍UQR技术并梳理相关文献。
特别地,我们介绍三种重要的无条件分位数回归模型:Firpo、Fortin和Lemieux(2009)的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)的无条件分位数处理效应模型与Powell(2010)的无条件分位数回归。
有关UQR与CQR的差别,本文将在第二部分“无条件分位数回归的最新进展”中详细说明。
另外,本文试图用一个研究居民收入分配格局变化对其医疗支出影响的实例说明新方法的应用。
该实例将说明居民总体收入分配格局的变化如何影响其医疗支出的分布,而已有基于条件分位数回归技术的文献无法对这一问题做出全面的回答。
运用新方法的实证结果表明:在控制了疾病严重程度与城乡差异等因素后,由收入引起的居民医疗消费不平等显著存在;居民收入的按量(by amount)增长无法改善这种不平等,而收入的按比例(by proportion)增长对医疗高消费人群的拉动作用远大于对低消费人群的作用,因而进一步加剧了这种不平等性。
二、无条件分位数回归的最新进展(一)RIF回归假设已经获得了被解释变量Y以及可能影响Y的k维解释变量X的观测值。
我们关心的是X的变动对Y的影响。
例如研究者时常关心以下条件分位数偏效应(conditional quantile partial effects,CQPE)的估计值:问题1:仅当收入发生微小改变时,引起所有具备特征X=x的个体组成群体的Y分布τ-条件分位数的变化量①。
CQPE尽管可以帮助我们回答问题1,但是却无法回答下面虽与问题1密切相关,但有明显区别的另一问题:问题2:当整个人群的收入分布发生微小变化时,他们的Y分布的τ-分位数将产生何种变化?问题2与问题1的相似之处在于两者都是关心X的边际变动对Y分布的影响;两者的显著不同是:问题1只是针对整个人群中的某一(具有特征X=x)子人群而言,而问题2是针对整个人群整体而言。
一般地,我们需要了解X分布的微小变化对于被解释变量Y无条件分布τ-分位数的影响。
这等价于计算以下无条件分位数偏效应(unconditional quantile partial effects,UQPE):来获得UQPE的估计。
为应对这一难题,Firpo,Fortin和Lemieux(FFL,2009)借用稳健估计(robust estimation)中影响函数(influence function)的基本概念,建立了估计UQPE的一般步骤。
该方法的基本思想如下:利用统计学中稳健估计的若干知识,可得以下恒等式:将式(6)与式(5)右边相减,除以增量Δx并令Δx趋向于零,可以得到X的单位平移变换对Y的τ-无条件分位数的边际影响,即无条件分位数偏效应:最后,FFL建议从式(7)出发,通过以下三步获得UQPE的一致估计:来获得UQPE(τ)的一致估计。
(二)无条件分位数处理效应处理效应模型和普通的回归框架探究变量之间的相关关系不同,它研究的是变量之间的因果关系,允许研究者在十分弱的假定下获得变量之间因果关系的准确估计,因而在微观经济政策评估中占据十分重要的地位。
假设D是一个0-1处理变量。
D=1表示个体接受了某种政策,D=0表示未接受这种政策。
用与分别表示个体在D=1或D=0状态下的结果。
平均处理效应(average treatment effect)E(-)表示的是该政策对潜在受众对象的平均作用大小。
但是,政策的平均影响并不是政策制定者关心的全部内容,通常他们还关心政策对于群体在整个分布不同分位点上的异质性影响,这等价于需要估计如下的分位点处理效应(quantile treatment effect,QTE):FM首先注意到并非所有个体的QTE都可以被识别出来,而只有那些可以通过变动工具Z来改变他们处理状态D的遵从者(complier)的QTE才能被识别出来。
其中,遵从者当D=1时的分布函数满足可以看出的是,要通过式(10)和式(11)的逆函数来求解式(12)其实十分困难。
为克服这一难题使得UQTE便于计算,FM采用了再赋权(reweighting)分位点回归的算法,其主要思路如下。
定义权重函数其中p(X)=E(D=1|X)。
在以上权重下,可以证明式(10)和式(11)具有等价表示为计算在特定τ处的UQTE,令式(13)和式(14)的等号的左边都等于数值τ,即得其中(u)=u(τ-1(u<0))。
基于以上思路,实际计算可分为三步,首先获得得分倾向p(X)的非参数估计p(·),随后代入W的表达式获得W的一致估计(三)无条件分位数回归回顾以上两类对UQR的研究,Powell(2010)认为,FFL的RIF回归虽然具备无条件分位数回归的思想,但是它将所有解释变量都等同于控制变量,即RIF回归无法同时基于一些变量的条件分位数回归时计算另一些变量的无条件分位数回归。
另一方面,FM的无条件分位数处理效应无法推广到处理变量取值为连续的一般情形。
Powell(2010)考虑以下回归方程Y=g(D,X,ε)(17)其中Y是被解释变量,D是政策变量,X是反映个体特征的一组控制变量,ε是不可观察的扰动项。
这里区分政策变量与控制变量的目的主要是为了计算Y关于D是有条件的分位数回归,同时关于X的部分分量是无条件分位数回归。
这种部分无条件分位数回归在实际应用中具有极大的灵活性,因为,人们可以根据研究目的自由地选择自己想要了解哪些解释变量对于被解释变量的异质性作用。
例如,当人们想要了解教育对于工资的分位数影响时,可以令D只包含教育变量,而将其他有关个人性别、年龄、家庭背景等因素全部放入控制变量X中。
此时部分无条件分位数回归结果回答的问题将完全不同于FFL的RIF回归结果回答的问题,当然也不同于一般条件分位数回归结果回答的问题。
为简单起见且能够说明部分无条件分位数回归的基本想法,Powell只考虑当Y关于D的无条件分位函数是线性的情形。
在这种情况下,式(17)可以进一步写成Y=αD+U(X,ε)其中E(P(U(X,ε)≤0|D,X)|D)=τ(18)比较式(18)与CQR框架下对应的条件可以帮助我们理解UQR与CQR的重要区别。