当前位置：文档之家› 第四章比估计与回归估计

第四章比估计与回归估计

当样本容量n充分大时，这种偏误趋近于0 3、估计总体平均数及总体标志总量

Y R Y RX X Y R Y RX X

y ˆ ˆ Y RX X x y ˆ ˆ ˆX Y RX X NR x
ˆ 称为比估计量 ˆ,Y ˆ,Y R
4、样本估计量的均方误差
1 f 1 1 ˆ MSE ( R) 2 (Yi RX i ) 2 n N 1 X
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额（X）为 70523.16万元。试估计当年全系统的工资总额及估计的近似标准差。
第三节回归估计

一、定义
回归估计是通过对调查变量Y以及该变量有线性关系的辅助变量X建立回归方程，然后运用回归方程对总体指标进行推断、估计的方法。在直角坐标系中，比估计表现为通过原点的回归直线，而回归估计可以通过原点，也可以不通过。比估计只能有一个辅助变量，而回归估计可以利用多个辅助变量。

例：设某县有53个乡镇，已知某年度小麦总播种面积为795000亩，现抽取10个乡调查结果为总播种面积为152000亩，小麦总产量6262.4万公斤，要求依以上资料对该县平均每个乡镇的小麦总产量和全县的小麦总产量作出回归分析。（β 0=0.04)
三、 β为样本回归系数
ˆ Ylr y b( X x )
第四章比估计与回归估计

第一节概述第二节比估计第三节回归估计
第四节分层比估计与分层回归估计
第一节概述

一、问题的提出
在许多实际问题中常常涉及两个调查变量（指标）Y 和X 。对于包含N个抽样单元的总体除了对总体信息进行估计外，常常要估计总体比率R。总体比率在形式上总是表现为两个变量总值或均值之比。在涉及两个变量的抽样调查中，有两种情况需要应用比率估计量。一种情况是利用双变量样本对总体比率进行估计需应用比率估计量，此时两个变量均为调查变量。另一种情况是一个变量为调查变量，另一个变量表现为与调查变量有密切关系的辅助变量，在对调查变量总体总值、总体均值等目标量进行估计时，利用已知的辅助变量信息构造比率估计量可以改进估计的精度。基于这种考虑利用已知的辅助变量信息构造比率估计量就可使估计精度加以改进。
收入X2，食品支出Y, （假设是月度资料,数据省略，仅说明问题）要求估计：（1）每个家庭每月用于食品的支出；（2）平均每人用于食品的支出；（3）食品支出占收入的比重。分析：在要求（2）中，要求估计平均每人用于食品的支出，显然须将33 户的食品支出相加，33户家庭人数相加，然后相比，因此这本身就是一个比率估计的问题。又如要求（3）中要求估计食品支出占收入的比重，看来似乎是个比例问题，但从现有材料以户作为抽样单位，食品支出和收入都是随机变量，因此也是一个比率估计问题。只有要求（1）是一个均值的简单估计问题。

例1：某系统共有N=687个单位，为预估当年全系统的工资总额，用简单随机抽样抽取一个n=26个单位的样本，对样本的资料统计如下：
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
上一年全系统工资总额（X）为70523.16万元。试运用回归估计计算当年全系统的工资总额及估计的近似标准差。
2 y 5443 . 2 y i i 1016064 2 x 9580 x i i 2836064 xy 1600272
试用比率估计方法，以95%的可靠程度估计月收入中食物消费所占比重的置信区间。
例：交通运输统计中有三个重要的指标，即运量、周转量与平均运距，其中平均运距是总周转量除以运量所得的商，为估计公路载货汽车的平均运距，在总体中用简单随机抽样抽取32辆货车，记录每辆车在一个月内的运量xi与周转量yi，统计计算结果如下：

比估计回归估计

二、辅助变量的选择
辅助变量与调查变量之间存在较密切的相关性或线性关系；辅助变量的有关资料是能够事先掌握的；要求样本容量比较大。因为小样本时，比率估计是一个有偏的估计，只有样本量比较大时，偏误可以忽略不计。

举例

例1：设某县农村的33户家庭收支调查资料，其中家庭人数X1,
2 2 1 u cx
其中：
2 2 2 s s s 1 f 1 f y 2 2 cy 2 2 , cx x2 x2 y n y x n x s yx 1 f s yx 2 c yx yx n yx 2 sy
例：某街区有2000户居民家庭，按简单随机抽样方法抽出其中33户家庭，调查其两项指标：食物消费额(y)，月收入 (x)，调查结果如下：
差估计量简单估计量比估计量

二、β为设定常数
ˆ y ( X x) Y lr 0
1 f 2 ˆ 2 V (Ylr ) ( S y 0 S x 2 0 S xy ) n 1 f 2 ˆ 2 v(Ylr ) ( s y 0 s x 2 0 s xy ) n
例2：有一批橘子，欲估计其含糖总量。

分析：确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提炼才能得到，因此必须用抽样的方法。思路一：假设现在用简单随机抽样的方法从中抽取n个橘子为样本，一种简单的估计推断方法是测定每个橘子的含糖量y1，y2，…yn。然后计算样本平均数，来估计总体平均数 Y ，最后用橘子的总数N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起来比较苦难，因为橘子的总数N不容易数清，此外，如果橘子的大小差别很大时也不容易估计精确。思路二：利用一个辅助变量，因为每个橘子的含糖量yi与他们的重量 xi有密切联系，呈现高度相关。因此当我们在测定n个橘子的含糖量的同时，也测定其重量，得到橘子的含糖量与重量之间的一个比率，如果我们知道橘子的总重量，就可以通过以下的关系求得总含糖量：样本含糖量总含糖量总重量样本重量 ˆXy Y x
6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
yh ˆ Rh xh ˆ ˆ X y Yh R h h Rh
Yh Rh Xh
Yh Rh X h YRS WhYh
yh ˆ YRS y RS Wh y Rh Wh Xh xh
yh ˆ YRS Ny RS X h xh ˆ ) V (Y ˆ ) MSE(Y
i i
( x x )( y y ) s b s (x x)
2 i
yx 2 x
1 f 2 2 2 1 f 2 ˆ ˆ 2 MSE (Ylr ) V (Ylr ) ( S y b S x 2bS yx ) S y (1 ) n n
1 f 2 1 f n 1 2 ˆ 2 2 v(Ylr ) se (s y b sx ) n n n2
5、估计量的方差
1 f 1 1 ˆ ˆ V ( R) MSE ( R) 2 (Yi RX i ) 2 n N 1 X
ˆ 2 ˆ ˆ) V (YR ) V ( RX ) X V ( R ˆ ˆ 2 2 2 ˆ ˆ) V (YR ) V ( NYR ) N V (YR ) N X V ( R

总体均值的回归估计量定义为： ylr y ( X x ) y ( x X )
总体总量的回归估计量定义为：

ˆ Ny Y lr lr

因此说，简单估计量和比估计量都是回归估计的特例。
1 ylr y X x 0 ylr y y y 偏估计量很难比较两者优劣
2、置信区间

当 n 30, cv( x ) 0.1, cv( y ) 0.1 时， R ˆ u v( R ˆ), R ˆ u v( R ˆ)
▼当上述条件不满足时，
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
四、回归估计量与比估计量及一般样本平均数的比较

在大样本下，回归估计总是优于简单估计量。在大样本下，回归估计总是优于比估计。

第四节分层比估计与分层回归估计

一、分别比估计与联合比估计分别比估计：在分层随机抽样中，对每层样本考虑比估计，然后进行加权平均或相加，所得的估计量称为分别比估计
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy nX 2 ˆ ) 1 f (s 2 R ˆ 2 s 2 2R ˆs ) v2 ( R y x xy 2 nx 1 f ˆ 2 ˆ 2 s 2 2R ˆs ) v(YR ) (s y R x xy n 2 N (1 f ) 2 ˆ 2 2 ˆ ˆs ) v(YR ) (s y R sx 2R xy n

三、比估计的效果分析如果 2CxCy Cx2 0 两种方法的估计
效果基本相同。

如果 2CxCy Cx2 0 比估计优于简单
估计。

e商务文档

第四章比估计与回归估计

相关文档推荐：

e商务文档

第四章 比估计与回归估计

相关文档推荐：

第四章比估计与回归估计