抽样调查填空题:1.若样本统计量w的期望和方差分别为E(w)和var(w),那么以样本统计量w 估计总体的数字特征W,有偏量B(w)=E(w)-W;均方偏差MSE(w)=E(w-W)2;且偏量、统计量w的方差与均方偏差三者之间的关系为:MSE(w)= var(w)+[B(w)]2.2.在概率抽样调查中,有简单随机抽样、不等概抽样、分层抽样、多阶抽样、系统抽样、多相抽样等基本的抽样方法。
3.抽样框:又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。
若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
抽样框除包含有抽样单位的编号及抽样单位与总体、个体单位的联系外,还应包含一些有用的辅助信息。
这些辅助吸血可用于抽样方案的设计和数据处理,有益于提高调查的质量。
4.抽样方案的设计要求:利用抽样框的辅助信息,综合各种基本的概率抽样方法来制定一个可行的、精度满足要求而且费用最省的抽样方法。
5.一个完整的抽样策略由抽样方法应配合有一个相适应的估计结合在一起组成。
6. 总体采用简单随机抽样时,对总体目标量的均值或总数,可以有多种估计方法。
在没有辅助信息是,可以采用简单估值法,以样本的均值估计总体的均值;当有适宜的辅助信息利用时,可以采用比估计和回归估计。
7.二相抽样是对总体进行一次以上的抽样。
第一次抽样的样本单元并不是调查所需的目标量,而是调查一些可通过较小的工作量快速获得辅助信息;第二次抽样则是在获得辅助信息的基础上,再作一个样本量较小的调查,调查所需的目标量。
8.分层随机抽样适用于总体单位数量较多、内部差异较大的调查对象。
在分层时,要使层内的个体单元有较好的同一性,层间的差异较大。
9.多阶段抽样与整群抽样都是将总体分成若干小的群体,这些小的群体为第一性抽样单元。
再对抽中的第一性抽样单元抽样,其中的个体为第二性抽样单元。
10.有放回不等概抽样是每个单元入样概率正比于规模测度的抽样方法;实施无放回不等概抽样的方法主要有:布鲁尔法和德宾法。
定义:即抽取概率。
计算题:1.假设总体容量为N=6,其标志值分别为1,2,3,5,6,7.若分为两个群(1,2,3)和(5,6,7),计算群内相关系数。
求出的群内相关系数能说明什么问题。
又若分为(1,5,7)和(2,3,6), 计算群内相关系数。
求出的群内相关系数又能说明什么问题。
2.给定一个包含25个单元的目标为总体,先排成5行5列的形式,每行每列均包含5个单元,单元排列先按列排列,考虑n=k=5的系统抽样,以行为群组成系统样本,而以列为层。
若按从小到大的顺序排列,比较该系统抽样,简单抽样,及分层抽样的效率。
1 2 3 4 5 1 12 26 29 36 44 2 18 28 29 36 46 3 19 28 30 39 48 4 24 28 33 39 50 52529344052解:依题意可知:分为以下两种情况讨论。
i)以行为群,组成系统抽样。
此时25N =,5o K N ==。
根据公式:11Ki ij j Y Y K•==∑ , ()22111K i i ij j S Y Y K ••==--∑有: 表c12345i Y •2i S •1 12 26 29 36 44 29.40 142.8 2 18 28 29 36 46 31.40 107.83 19 28 30 39 48 32.80 122.74 24 28 33 39 50 34.80 103.7 52529344052 36.00 111.5_1132.88K i i Y Y K •===∑2211=117.7K i i S S K•==∑内()2211 6.9321Ki i S Y Y K •==-=-∑外()()0022211103.8611N K K N S S S N N --=+=--外内所以:()02211 1.62281sy K N N V Y S S N N ∧-⎛⎫-=-= ⎪-⎝⎭内201116.6176V Y S N N ∧⎛⎫⎛⎫=-= ⎪ ⎪⎝⎭⎝⎭由上述可知:sy V Y V Y ∧∧⎛⎫⎛⎫< ⎪ ⎪⎝⎭⎝⎭3.某县农村共有14个乡509个村,在实现小康的过程中欲计算该县农村的恩格尔系数(居民的食品支出占总指出的比例)。
首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段先在14个乡中,按村的的数目多少进行了PPS 抽样,共抽取5个乡,第二阶段在抽取的乡中随机地抽取6个村做调查,然后对抽中的村做全面调查,取得数据如下:样本乡序号 k 村数 i N样本村数 in样本村平均食品支出(万元) 1 19 6 48 2 41 6 175 3 72 6 108 4 54 6 90 5366100要估计全县的食品支出总金额及估计的标准差。
问题分析:此题为第一阶段是以14个乡中所含村的个数为规模测度的PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样。
故^11k iPPS i i iN G y k P ==∑(*) 由题意可知:总村数N=509,样本乡数k=5,第i 个样本乡的入样概率ii N P N=,抽取的样本总村数n=30,第二阶段为取等额的简单随机抽样故/1n kij i j k y y n ==∑其中ij y 表示第i 个样本乡中第j 个样本村的食品支出总额。
解:^11k i PPS i i iN G y k P ==∑ 将iiN P N =代入后得 111k ki i ii i i N Ny yk N N k====∑∑【①】代入数据可得估计值为:()^509481751089010053037.85PPS G =++++=(万元)均方偏差的无偏估计量:2^^11(1)ki PPS PPS i i i N v G y G k k P =⎛⎫⎛⎫=- ⎪ ⎪-⎝⎭⎝⎭∑ 将【①】式与iiN P N =代入左式得()22^1(1)k PPS i i N v G y y k k =⎛⎫=- ⎪-⎝⎭∑ 【②】 其中__11k i i y y k ==∑ 再代入数据^PPS v G ⎛⎫ ⎪⎝⎭=1088776199.4(万元)故标准差为:^^()()PPS PPS s G v G =(万元)注意:其中公式【①】与公式【②】的运用是在第一阶段是正比于子总体规模的PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样的前提条件下才能进行的。
4.若假设已知该县有380千人,并有各个乡的人口资料,则第一阶段按与乡的人口多少成比例地抽样,也抽取5个乡。
第二阶段用简单随机抽样抽取6个村得数据如下表,再估计全县的食品支出总金及估计的标准差。
样本乡序号 人口数村数样本村平均食品支出k X iN i(万元) 1 24 30 96 2 50 41 175 3 38 35 167 4 60 48 188 53039130问题分析:此题与前一题的差别不大,抽样方法都是第一阶段是PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样。
唯一不同的是两者的规模测度不同,此题是按与乡的人口数为规模测度的PPS 抽样。
故此题中ii X P X =,其中X 为该县的总人数,i X 为抽中样本乡的总人数。
没有与子总体的i N 成正比,不能用直接公式【①】与公式【②】解:^1111155991k k ki i iPPS i i i i i i i i iN N N X G y y y k P k X X kX ======≈∑∑∑(万元) 2^^119261315.8(1)ki PPS PPS i i i N v G y G k k P =⎛⎫⎛⎫=-≈ ⎪ ⎪-⎝⎭⎝⎭∑(万元) 标准差为:^^()()PPSPPSs v GG=(万元)注意:两题抽样方法的选择虽然相同,但PPS 抽样中的规模测度选择不同导致估计的效率不同,从而影响到估计的准确度。
ii N/i i w N N =yi s i n5.某市进行家庭收入调查,分城镇居民与农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇平均年收入标准差为3000元,农村年平均户收入标准差为2000元. 且对城镇居民与农村居民抽样平均每户费用比为1:2. 给出城镇与农村两层比列分配与最优分配的样本量的分配。
解:已知总体总量 171980()N =户, 城镇居民总量123560()N =户, 农村居民总量2N =148420(户),, 总样本容量 n=550, 城镇占总体比例11N =0.137NW =,农村占总体比例22N W ==0.863N, 费用比12C 1=C 2。
1. 按比例分配:城镇样本量:11*0.137*55075()n W n ===户 农村样本量:22W *0.863*550475()n n ===户2. 考虑费用前提下的最优分配由定理4.3.2知i ii in k c = k 为待求得比例系数又因为:i i i i n n k c ==∑ 则 /()i i ik n c = *(/i i i i i i in n c c = 2111110.137*30000.137*30000.863*2500/)550*/()117()112i i i in n c c ===+=户 21433()n n n =-=户1 (城镇) 23560 0.137 15180 3972 300 2(农村) 148240 0.863 9856 2546 250 合计 171980(若不考虑费用)(奈曼最优分配): 由定理4.3.1知 i n n =∑ 固定 有1*i ii kjjj W S n n W S==∑考虑本题有21*i ii jjj W S n n W S==∑10.137*3000550*88()0.137*30000.863*2500n ==+户21432()n n n =-=户6. 三种样本量估算的比较条件n 值(样本量) 简化公式按绝对精度 │y Y -│≤d221/22221/2(u )n=1(u )NS d S αα--+221/22(u )n S d α-≈按相对精度 │y Y Y-│≤h. 221/22221/2(u )n=1(u )C h C Nαα--+221/22(u )n=C h α-考虑费用2011(1)nF F F n a S n N=++-21aS n F =注:1/2uα-是N(0,1)分布的12α-分位数,2S 是总体方差,d 是绝对精度, N :总体种抽样单位的数额,/C S Y=为变异系数,0F 是调查的基本费用,1F 是每调查一个样本单元所需费用,a 是常数。