6.1 选择性样本模型
第六章 非经典截面数据计量经济学模型
说明
• 非经典截面数据计量经济学模型主要包括:
– 将被解释变量抽样由完全随机扩展为受到限制的受限 被解释变量模型(Model with Limited Dependent Variable)。包括:
• 选择性样本模型(Selective Samples Model) • 持续时间被解释变量模型(Model for Duration Data)
2、“归并” (censoring)问题
• 将被解释变量的处于某一范围的样本观测值都用 一个相同的值代替。
– 经常出现在“检查”、“调查”活动中,因此也称为 “检查”(censoring) 问题。 – 需求函数模型中用实际消费量作为需求量的观测值, 如果存在供给限制,就出现“归并”问题。 – 被解释变量观测值存在最高和最低的限制。例如考试 成绩,最高100,最低0,出现“归并”问题。
i 1,2,, n1
(
Ziβ2
2
该模型已经修正了选择性偏误,可以采用OLS进行估计。
• 具体步骤
– 第一步:利用从全部企业(包括上市和未上市)中随 机抽取的样本,估计上市倾向模型 ;并利用估计结果 计算逆米尔斯比的值。 – 第二步,利用选择性样本观测值和计算得到的逆米尔 斯比的值,将(ρσ1)作为一个待估计参数,估计经理报 酬模型,得到β1的估计。 – 注意,在抽取样本时间必须保证所有选择性样本包含 于全部样本之中。
– 将被解释变量是连续的扩展为离散的离散被解释变量 模型(Model with Discrete Dependent Variable)。 包括:
• 离散选择模型(Discrete Choice Model) • 计数数据模型(Model for Count Data)
– 将单一截面的样本扩展为多个截面的面板数据模型 (Panel Data)。
c
如果ξ服从均匀分布U(a, b),但是它只能在(c, b)内取得样本观测值,那么取得每一个样本 观测值的概率
f ( ) f ( a ) P( a ) (2 )
2
e 1 ( )
1 2
( ) 2 /( 2 2 )
ξ服从正态 分布
( ) 1 ( )
X1
1399.1 1070.4 1167.9 1274.3 1535.7 2267.4 2440.4 1919.8 3017.3 3436.7 3326.7 2938.7 2238.6 2681.3 3129.3 2890.6 2828.5 2257.3 2072.9 1537.6 2279.0 1570.1 1583.2 2111.6 2228.5
5、为什么截断被解释变量数据模型不能采用 普通最小二乘估计
• 对于截断被解释变量数据计量经济学模型,如果 仍然把它看作为经典的线性模型,采用OLS估计, 会产生什么样的结果?
• 因为yi只能在大于a的范围内取得观测值,那么yi 的条件均值为:
E ( yi yi a )
y ( y
i a
( 2 i i i )
(1 2 i i i ) (1 ( i ))
yi yi a E ( yi yi a) ui X i ( i ) ui
Var (ui ) 2 (1 i2 i i ) 2 (1 i )
Y
2002.2 2181.0 1855.5 2179.0 2247.0 2032.4 3349.7 3304.1 4254.0 3902.9 4241.3 5800.0 3655.0 3532.7 4417.2 3388.5 3725.2 4020.8 4140.4 2422.0 2924.8 3349.2 2766.5 3347.9 3231.1
(( yi X i ) / )
n 1 2 ln L (ln(2 ) ln ) 2 2 2
i 1
n
( yi X i ) 2
a X i ln1 i 1
n
yi X i i Xi n 2 ln L 2 ( yi X i ) i i 1 i 1 2 2 4 2 2 2 2
X2
1035.9 1189.8 966.2 1084.1 1224.4 469.9 2709.3 2324.2 2941.0 1829.2 1880.1 5062.3 2270.3 2380.7 2990.2 1916.6 2207.3 2652.4 2390.2 1462.3 1090.5 1867.6 1397.4 1937.0 1752.2
Yi 0 1 X1i 2 X 2i i i 1,2,L ,50
Y
X1
1258.3 1738.9 1607.1 1188.2 2560.8 2026.1 2623.2 2622.9 3330.2 1497.9 1403.1 1472.8 1691.4 1609.2 1948.2 1844.6 1934.6 1342.6 1313.9 1596.9 2213.2 1234.1 1405 961.4 1570.3
• 如果能够知道在这种情况下抽取一组样本观测值 的联合概率函数,那么就可以通过该函数极大化 求得模型的参数估计量。
2、截断分布
f ( ) f ( a) P( a)
α为随机变量ξ分布范围内的 一个常数
1 (b a ) f ( ) 1 f ( c) b P( c) bc 1 d ba
逆米尔斯比 inverse mills ratio
E (Wi X i , Yi * 0) X i β 1 E ( 1i 2i Z i β 2 ) E (Wi X i , Yi * 0) X i β 1 1i
( i
Ziβ2
2
) )
Wi Xi β1 1i i
1
P( a) 1 (
a
) 1 ()
Φ是标准 正态分 布条件 概率函 数
3、截断被解释变量数据模型的最大似然估计
yi X i i
i ~ N (0, 2 )
yi X i ~ N (X i , )
2
1 f ( yi )
1 ((a X i ) / )
• 样 本 观 测 值
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
5800.0 3341.1 2495.3 2253.3 2772.0 3066.9 2700.7 2618.2 5015.7 4135.2 5800.0 2420.9 3591.4 2676.6 3143.8 2229.3 2732.5 3013.3 3886.0 2413.9 2232.2 2205.2 2395.0 1627.1 2195.6
• 非经典截面数据计量经济学模型也被称为微观计 量经济学模型
– 研究对象: • 家庭、个人、企业等微观主体的行为; • 微观主体具有异质性。 – 数据特征: • 截面数据、面板数据; • 微观数据的来源主要不是统计,而是调查; • 表征家庭、个人等微观主体行为的数据经常是离散 的; • 样本选择和观测值的赋值经常是受到限制的; • 样本数量大。
i
y i a )dy i
((a X i ) / ) X i 1 ((a X i ) / )
E ( yi yi a) X i (i )
X i i
E ( yi yi a) d i i Xi d i X i
• 在实际的截断数据模型中,这个条件经常不能被 满足,诸如利用上市公司为样本研究全部企业的 行为,就不存在明确的被解释变量的“截断点”。
• 关于这类模型的估计,Heckman于1979年提出 了两步修正法。
• 下面以一个实例说明两步修正法的原理和步骤。
• 模型
– 为了研究企业经理报酬W与影响因素X之间的关系,在 上市公司中随机抽取n1个企业为样本,建立如下的模 型:
• 被解释变量样本观测值受到限制。
二、“截断”数据计量经济学模型
1、思路
• 如果一个单方程计量经济学模型,只能从“掐头” 或者“去尾”的连续区间随机抽取被解释变量的 样本观测值,那么很显然,抽取每一个样本观测 值的概率以及抽取一组样本观测值的联合概率, 与被解释变量的样本观测值不受限制的情况是不 同的。
• 选择截断数据ML估计
• 将样本视为不受限制的随机抽取
• 将样本视为人均消费大于1500元的范围内随机抽取
• 将样本视为在人均消费大于1500元、小于6000元的范围 内随机抽取
• 比较3种假设下的对数似然函数值可见,随着截断 区间的缩小,抽取同一个样本的概率增大,致使 对数似然函数值增大。
X2
7317.2 4489.0 2194.7 1992.7 781.1 2064.3 1017.9 929.5 3350.0 4315.3 5531.7 1496.3 3143.4 1850.3 2420.1 1416.4 1484.8 2047.0 3765.9 1173.6 1042.3 1639.7 1597.4 1023.2 680.2 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
• 由于被解释变量数据的截断问题,使得原模型变 换为包含一个非线性项模型。
• 如果采用OLS直接估计原模型:
– 实际上忽略了一个非线性项; – 忽略了随机误差项实际上的异方差性。 – 这就造成参数估计量的偏误,而且如果不了解解释变 量的分布,要估计该偏误的严重性也是很困难的。