当前位置:
文档之家› 计量分位数回归 eviews
计量分位数回归 eviews
共计
2420
21450 21285
15510
• 由于不确定因素的影响,对同一收入水平X, 不同家庭的消费支出不完全相同; • 但由于调查的完备性,给定收入水平X的消费 支出Y的分布是确定的,即以X的给定值为条 件的Y的条件分布(Conditional distribution) 是已知的,例如:P(Y=561|X=800)=1/4。 • 因此,给定收入X的值Xi,可得消费支出Y的条 件均值(conditional mean)或条件期望 (conditional expectation):E(Y|X=Xi)。 • 该例中:E(Y | X=800)=605
V yi xi β
i 1
N
针对LAD方法的回归估计是条件分位点回归的一种特殊情况, 通常被人们称为“中位数回归”。 分位数回归的系数估计需要求解线性规划问题,很多种方法 可以对此问题进行求解。
1、条件均值(conditional mean)
• 例2.1.1:一个假想的社区有99户家庭组成, 欲研究该社区每月家庭消费支出Y与每月家庭 可支配收入X的关系。 即如果知道了家庭的月 收入,能否预测该社区家庭的平均月消费支出 水平。 • 为达到此目的,将该99户家庭划分为组内收入 差不多的10组,以分析每一收入组的家庭消费 支出。
表 2.1.1 某社区家庭每月收入与消费支出统计表 每月家庭可支配收入 X(元) 800 每 月 家 庭 消 费 支 出 Y (元) 561 594 627 638 1100 638 748 814 847 935 968 1400 869 913 924 979 1012 1045 1078 1122 1155 1188 1210 1700 1023 1100 1144 1155 1210 1243 1254 1298 1331 1364 1408 1430 1485 2000 1254 1309 1364 1397 1408 1474 1496 1496 1562 1573 1606 1650 1716 2300 2600 2900 1969 1991 2046 2068 2101 2189 2233 2244 2299 2310 3200 2090 2134 2178 2266 2354 2486 2552 2585 2640 3500 2299 2321 2530 2629 2860 2871 1408 1650 1452 1738 1551 1749 1595 1804 1650 1848 1672 1881 1683 1925 1716 1969 1749 2013 1771 2035 1804 2101 1870 2112 1947 2200 2002 4950 11495 16445 19305 23870 25025
假设随机变量 Y 的概率分布为:
F ( y) Prob(Y y)
Y 的 分位数定义为满足 F(y) 的最小 y 值,即:
(4.7.1)
q( ) inf{ y : F ( y) } , 0 1
(4.7.2)
图4.7.1 cs 变量的累积分布函数F(y)
图4.7.2 cs 变量的分位数分布函数q()
其中,argmin{}函数表示取函数最小值时 的取值,
(u) u( I(u < 0)) 称为检查函数(check function),
依据 u 取值符号进行非对称的加权,这里 u y 。
1 , u 0 I (u 0) 0 , u 0
一般的 分位数回归的检查函数为:
(4.7.7)
现假设 Y 的条件分位数由 k 个解释变量组成的矩阵 X 线
性表示:
q | xi , β ( ) xi β ( )
(4.7.8)
其中,xi =(x1i,x2i,…,xki) 为解释变量向量,( ) =(1, 2,…,k )是 分位数下的系数向量。当 在 (0, 1) 上变动时, 求解下面的最小化问题就可以得到分位数回归不同的参数估 计:
u u I u 0
其中, I Z 为示性函数,Z是指示关系式。 当分位数为0.5时,就是最小一乘回归,即 中位数回归。
考察此最小化问题的一阶条件为:
0
y
dF ( y) (1 ) dF ( y)
y
(1 F ( )) (1 ) F ( ) F ( )
(4.7.4)
即F() = ,也就是说F(Y)的第 个分位数是上述优化问题的解。 F(y) 可以由如下的经验分布函数替代:
1 FN ( y ) N
I(y
i 1
N
i
y)
(4.7.5)
其中 y1,y2,…,yn 为Y 的 N 个样本观测值;I(z) 是指示函数,z 是条件关系式,当 z 为真时,I(z) = 1;当 z 为假时,I(z) = 0。式 (4.7.3)中条件关系式 z 为 yi y,当 yi y 时,I(yi y) = 1,否 则取值为0。
分位数回归(Quantile Regression)最早由科恩克 和巴塞特 (Koenker 和Bassett, 1978)于1978年提出 ,它 提供了回归变量 X 和因变量Y 的分位数之间线性关系的
估计方法。绝大多数的回归模型都关注因变量的条件均
值,但是人们对于因变量条件分布的其他方面的模拟方 法也越来越有兴趣,尤其是能够更加全面地描述因变量 的条件分布的分位数回归。
为线性函数。其中,0,1是未知参数,称为 回归系数(regression coefficients)。
1、样本回归函数
• 问题:能否从一次抽样中获得总体的近似信息? 如果可以,如何从抽样中获得总体的近似信息? • 在例2.1.1的总体中有如下一个样本,能否从该 样本估计总体回归函数?
表 2.1.3 家庭消费支出与可支配收入的一个随机样本 X Y 800 1100 1400 594 638 1122 1700 2000 2300 1155 1408 1595 2600 1969 2900 2078 3200 2585 3500 2530
利用分位数回归解决经济学问题的文献越来越多, 尤其是在劳动经济学中取得了广泛应用。如在教育回报和 劳动市场歧视等方面都出现了很好的研究成果。在经济学 中的应用研究还包括诸如财富分配不均问题、失业持续时
间问题、食品支出的恩格尔曲线问题、酒精需求问题和日
间用电需求问题等。在金融学领域也涌现出大量使用分位 数回归的应用研究成果,主要应用领域包括风险价值 (Value at Risk, VaR)研究和刻画共同基金投资类型的指 数模型。
E (Y | X i ) f ( X i )
• 含义:回归函数(PRF)说明被解释变量Y的 平均状态(总体条件期望)随解释变量X变化 的规律。 • 函数形式:可以是线性或非线性的。 • 例2.1.1中,将居民消费支出看成是其可支配收 入的线性函数时:
E (Y | X i ) 0 1 X i
分位数回归(QRM)方法及其应用
管理与经济学院
夏先锋
主要内容:
分位数回归的基本介绍 系数协方差的估计方法
模型评价与检验 基于Eviews的分位数回归
一、分位数回归的提出
传统的回归分析主要关注均值,即采用因 变量条件均值的函数来描述自变量每一特定数 值下的因变量均值,从而揭示自变量与因变量 的关系。这类回归模型实际上是研究被解释变 量的条件期望,描述了因变量条件均值的变化。 人们当然也关心解释变量与被解释变量分 布的中位数,分位数呈何种关系。这就是分位 数回归,它最早由凯恩克(Koenker Roger)和 巴西特(Bassett Gilbert Jr)于1978年提出, 是估计一组回归变量X与被解释变量Y的分位数 之间线性关系的建模方法,强调条件分位数的 变化。
V
i: yi xi β
y xβ (1 ) y xβ
i i i: yi xi β i i
(4.7.10)
当 =0.5时称为最小绝对值离差法(Least Absolute Deviations, LAD),(4.7.10) 式的2倍就是LAD估计的精确的目标函数:
中位数是一个特殊的分位数,它表示一种分 布的中心位置。中位数回归是分位数回归的 一种特殊情况,其他分位数则可以用来描述 一种分布的非中心位置。第p个百分位数表 示因变量的数值低于这一百分位数的个数占 总体的p%.因此,分位数可以指定分布中的 任何一个位置。
4.7.1 分位数回归的基本思想和系数估计
分位数回归参数估计的思想
与LR估计量明显不同的QR估计量的特点在 于,在QR中数据点到回归线距离的测量通 过垂直距离的加权总和(没有平方)而求 得,这里赋予拟合线之下的数据点的权重 是1-τ,而赋予拟合线之上的数据点的权重 则是τ.对于τ的每一个选择,都会产生各自 不同的条件分位数的拟合函数,这一任务 是为每一个可能的寻找适合的估计量。
• 描出散点图发现:随着收入的增加,消费“平 均地说”也在增加,且Y的条件均值均落在一 根正斜率的直线上。
3500 每 月 消 费 支 出 Y (元) 3000 2500 2000 1500 1000 500 0 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X(元)
F(y)的 分位数可以由最小化关于 的目标函数得到,即:
q( ) arg min y dF ( y ) (1 ) y dF ( y ) y y (4.7.3) arg min ( y )dF ( y )
N ˆ β N ( ) arg min β ( ) yi x i β ( ) i 1
(4.7.9)
类似OLS方法,可以通过最小化(4.7.3)式的目标函数(V)获得 的第 个分位点回归估计量。例如,用 作为正误差项的权重, 用(1− ) 作为负误差项的权重的非对称绝对值误差加权平均: