当前位置:
文档之家› 第五章比估计与回归估计(抽样调查理论与方法-北京商学
第五章比估计与回归估计(抽样调查理论与方法-北京商学
第五章 比估计与回归估计
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。
Rˆ y
y
x X (1 x X )
X
利用Taylor展开式,有
Rˆ
y x
y X
1
x
X X
xX X
2
y X
1
xX X
x
X X
2
(5.7)
当 n 相当大时, x 与 X 相当接近,而 X 是常数,又 y 是Y 的
(5.12)
2SY 2 SY Y 2 CY
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
村i 产量yi (吨) 面积xi (亩)
村i 产量yi (吨) 面积xi (亩)
1
112.0
302
2
129.1
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
假如 X 或 X 已知,总体平均数 Y 与总体总和 Y 的比估计
量定义为:
yR
Rˆ
X
y x
X
y x
X
(5.5)
yR
Rˆ
X
y x
X
y x
X
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 Rˆ 则称为比值R 的
估计。
由 (5.5) 式与 (5.6) 式可知, yR与 yR 的习性主要依赖于估计量 Rˆ ,因此在不少场合,我们常用 Rˆ 来说明。
当 n 充分大时,
Var( yR )
1 f n
( SY2
R2
S
2 X
2RSXY )
而
Var( y) 1 f n
SY2
欲使 Var( yR ) Var( y) ,仅需
R
2
S
2 X
2RSXY
0
或
R2
S
2 X
2R SX SY
0
即
RSX 1 SX X 1 CX
尽管x, y 分别是X ,Y 的无偏估计,由于 Rˆ 的非线性形式,因 此 Rˆ 关于 R 是有偏的,从而 yR , yR 关于Y ,Y 也是有偏的。
一个合理的估计量,应该随着样本容量 n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
将比估计Rˆ y x 表示为:
设总体分为 k 层,第 h 层的样本均值记为yh , xh,在该层 中 Yh与Yh的比估计记为 yRh , yRh,又记X h和X h为第 h 层中指标
X的平均数与总和, SY2h , SX2h与 SYXh 分别为该层中Y , X 的方差 和协方差,若 S 换为 s ,Y , X换为 y, x ,则显然表示该层样本
§1 比估计及其性质
设有一个二元变量的总体 ( X ,Y ):( X1,Y1 ),( X2 ,Y2 ), ,( X N ,YN ) 有 4 个参数是我们所熟悉的:
X、Y ————指标 X、Y 的平均数
S
2 X
1 N 1
N
(Xi
i 1
X )2
SY2
1 N 1
N
(Yi
i 1
Y )2
yRS 是Y 的渐近无偏估计量:
k
E( yRS ) E( yRh ) Y
(5.17)
h1
各层的抽样又是独立进行的,由(5.10)式,可以近似得到 yRS
的方差或均方误差,当各个 nh都相当大时:
MSE( yRS ) Var( yRS )
k
N
2 h
(1
h1
nh
fh ) (SY2h
S
2 X
2RSXY )
(5.8) (5.9) (5.10)
公式(5.8)、(5.9)、(5.10)为我们提供了Var(Rˆ ),Var( yR ),Var( yR )
的估计量的形式。具体计算时,只要将
S
2 X
,
SY2
,
S
XY
,
R分别换为
sX2 , sY2 , sXY , Rˆ 即可。我们将由此得到的估计量分别记为:
v( y)
N 2 (1 n
f
)
s
2 y
14734359
显然,yR的方差远远小于 y 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
19
152.5
428
20
142.5
390
21
136.7
376
22
153.2
432
23
93.0
261
24
179.8
483
每个村有两个指标:面积 xi和产量 yi ,即:( xi , yi )
i 1
1
1
(5.2)
N
(Xi
X
)
2
N
(Yi
Y
)
2
i1
i1
如果简单随机样本为( xi , yi ) (i 1, 2, , n) ,则Cov( X ,Y )
及 的估计为:
S xy
1 n1
n i 1
( xi
x)( yi
y)
(5.3)
MSE( yRc ) Var( yRc )
k h1
Nh2(1 nh
fh ) (SY2h
R2
S
2 Xh
2R
SYXh )
(5.23)
其中R Y X 为总体的比值。
(5.22)表明, yRc 是 Y 的渐近无偏估计,(5.23)与(5.18)非常相 似,唯一不同的是在(5.18)中用的是各层的比值 Rh ,而(5.23) 中用的是总体的比值 R 。
的方差和协方差。
我们可以得到有关总体 Y 和 Y 的分别比估计为:
yRS
k
Wh yRh
h1
k
Wh
h1
yh xh
Xh
1 N
k h1
yh xh
Xh
(5.15)
yRS
N
yRS
k h1
yh xh
Xh
k h1
yRh
(5.16)
由上节可知,各层中的 yRh 是Yh的渐近无偏估计量,因此
v( Rˆ )
1 f nx 2
( sY2
Rˆ 2
s
2 X
2Rˆ sXY
)
v(
yR
)
1
n
f
( sY2
Rˆ
2
s
2 X
2Rˆ sXY )
v( yR )
N 2 (1 n
f
) (sY2
Rˆ
2
s
2 X
2Rˆ sXY
)
那么, R,Y ,Y 的置信水平为(1 )的置信区间分别为:
Rh2
S
2 Xh
Rh
2RhSYXh )
Yh Xh
(5.18)
(5.17), (5.18)告诉我们,即使每层 nh相当大,但如果层数k
比较大,由于误差的积累,yRS 产生的偏倚与误差可能相当 大。
2、联合比估计
将 X ,Y 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
Rˆ c
n
( xi x)( yi y)
ˆ
i 1 1
(5.4)
1
n
( xi
2 x)
n
(
yi
2 y)
i1
i1
在讨论比估计之前,先考察总体的两个平均数之比,即