当前位置:文档之家› 第四章 比估计与回归估计

第四章 比估计与回归估计


当样本容量n充分大时,这种偏误趋近于0 3、估计总体平均数及总体标志总量

Y R Y RX X Y R Y RX X

y ˆ ˆ Y RX X x y ˆ ˆ ˆX Y RX X NR x
ˆ 称为比估计量 ˆ,Y ˆ,Y R
4、样本估计量的均方误差
1 f 1 1 ˆ MSE ( R) 2 (Yi RX i ) 2 n N 1 X
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额(X)为 70523.16万元。试估计当年全系统的工 资总额及估计的近似标准差 。
第三节 回归估计


一、定义
回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。 比估计只能有一个辅助变量,而回归估计可以 利用多个辅助变量。

例:设某县有53个乡镇,已知某年度小 麦总播种面积为795000亩,现抽取10个 乡调查结果为总播种面积为152000亩, 小麦总产量6262.4万公斤,要求依以上 资料对该县平均每个乡镇的小麦总产量 和全县的小麦总产量作出回归分析。 (β 0=0.04)
三、 β为样本回归系数
ˆ Ylr y b( X x )
第四章 比估计与回归估计

第一节 概述 第二节 比估计 第三节 回归估计
第四节 分层比估计与分层回归估计
第一节 概述

一、问题的提出
在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。 对于包含N个抽样单元的总体除了对总体信息进行估计外,常常 要估计总体比率R。总体比率在形式上总是表现为两个变量总值 或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率估 计量。一种情况是利用双变量样本对总体比率进行估计需应用比 率估计量,此时两个变量均为调查变量。另一种情况是一个变量 为调查变量,另一个变量表现为与调查变量有密切关系的辅助变 量,在对调查变量总体总值、总体均值等目标量进行估计时,利 用已知的辅助变量信息构造比率估计量可以改进估计的精度。 基于这种考虑利用已知的辅助变量信息构造比率估计量就可 使估计精度加以改进。
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出, 显然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题。

例1:某系统共有N=687个单位,为预估当 年全系统的工资总额,用简单随机抽样抽 取一个n=26个单位的样本,对样本的资料 统计如下:
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
上一年全系统工资总额(X)为70523.16万 元。试运用回归估计计算当年全系统的工 资总额及估计的近似标准差。
2 y 5443 . 2 y i i 1016064 2 x 9580 x i i 2836064 xy 1600272
试用比率估计方法,以95%的可靠程度 估计月收入中食物消费所占比重的置信 区间。
例:交通运输统计中有三个重要的指标,即 运量、周转量与平均运距,其中平均运距是 总周转量除以运量所得的商,为估计公路载 货汽车的平均运距,在总体中用简单随机抽 样抽取32辆货车,记录每辆车在一个月内的 运量xi与周转量yi,统计计算结果如下:

比估计 回归估计

二、辅助变量的选择
辅助变量与调查变量之间存在较密切的相 关性或线性关系; 辅助变量的有关资料是能够事先掌握的; 要求样本容量比较大。因为小样本时,比 率估计是一个有偏的估计,只有样本量比 较大时,偏误可以忽略不计。


举例

例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
2 2 1 u cx
其中:
2 2 2 s s s 1 f 1 f y 2 2 cy 2 2 , cx x2 x2 y n y x n x s yx 1 f s yx 2 c yx yx n yx 2 sy
例:某街区有2000户居民家庭,按简单 随机抽样方法抽出其中33户家庭,调查 其两项指标:食物消费额(y),月收入 (x),调查结果如下:
差估计量 简单估计量 比估计量

二、β为设定常数
ˆ y ( X x) Y lr 0
1 f 2 ˆ 2 V (Ylr ) ( S y 0 S x 2 0 S xy ) n 1 f 2 ˆ 2 v(Ylr ) ( s y 0 s x 2 0 s xy ) n
例2:有一批橘子,欲估计其含糖总量。

分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提 炼才能得到,因此必须用抽样的方法。 思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本, 一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,…yn。 然后计算样本平均数 ,来估计总体平均数 Y ,最后用橘子的总 数N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起 来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大小 差别很大时也不容易估计精确。 思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量 xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量 的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率, 如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖量: 样本含糖量 总含糖量 总重量 样本重量 ˆXy Y x
6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
yh ˆ Rh xh ˆ ˆ X y Yh R h h Rh
Yh Rh Xh
Yh Rh X h YRS WhYh
yh ˆ YRS y RS Wh y Rh Wh Xh xh
yh ˆ YRS Ny RS X h xh ˆ ) V (Y ˆ ) MSE(Y
i i
( x x )( y y ) s b s (x x)
2 i
yx 2 x
1 f 2 2 2 1 f 2 ˆ ˆ 2 MSE (Ylr ) V (Ylr ) ( S y b S x 2bS yx ) S y (1 ) n n
1 f 2 1 f n 1 2 ˆ 2 2 v(Ylr ) se (s y b sx ) n n n2
5、估计量的方差
1 f 1 1 ˆ ˆ V ( R) MSE ( R) 2 (Yi RX i ) 2 n N 1 X
ˆ 2 ˆ ˆ) V (YR ) V ( RX ) X V ( R ˆ ˆ 2 2 2 ˆ ˆ) V (YR ) V ( NYR ) N V (YR ) N X V ( R



总体均值的回归估计量定义为: ylr y ( X x ) y ( x X )
总体总量的回归估计量定义为:

ˆ Ny Y lr lr



因此说,简单估计量和比估计量都是回归估计的特例。
1 ylr y X x 0 ylr y y y 偏估计量 很难比较两者优劣
2、置信区间

当 n 30, cv( x ) 0.1, cv( y ) 0.1 时, R ˆ u v( R ˆ), R ˆ u v( R ˆ)
▼当上述条件不满足时,
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
四、回归估计量与比估计量及一般样本 平均数的比较

在大样本下,回归估计总是优于简单 估计量。 在大样本下,回归估计总是优于比估 计。

第四节 分层比估计与分层回归估计

一、分别比估计与联合比估计 分别比估计:在分层随机抽样中,对每 层样本考虑比估计,然后进行加权平均 或相加,所得的估计量称为分别比估计
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy nX 2 ˆ ) 1 f (s 2 R ˆ 2 s 2 2R ˆs ) v2 ( R y x xy 2 nx 1 f ˆ 2 ˆ 2 s 2 2R ˆs ) v(YR ) (s y R x xy n 2 N (1 f ) 2 ˆ 2 2 ˆ ˆs ) v(YR ) (s y R sx 2R xy n

三、比估计的效果分析 如果 2CxCy Cx2 0 两种方法的估计
效果基本相同。

如果 2CxCy Cx2 0 比估计优于简单
估计。
相关主题