当前位置：文档之家› 抽样估计与样本量确定优秀课件

抽样估计与样本量确定优秀课件

• 当所采用的抽样设计不是等概率时，正确地使用设计权数就显得尤为重要。
• [例10．2] 有关各层总体数和样本数资料见表10-1。对于这项调查，被调查者的设计权数是多少呢？
收入层次高收入层中收入层低收入层
各层单位数 2000 12000 6000
样本数量 33.3 133.3 33.3
设计权数 wd,1＝N1/n1=2000/33.3=60.1 wd,2＝N2/n2=12000/133.3=90.0 wd,3＝N3/n3=6000/33.3=180.2
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计，该比值可用原样本的单元数与给出回答的单元数的比值来表示。
• 无回答权数调整应区分两种不同情况：
– 等概率抽样 – 不等概率抽样
对无回答的权数调整(SRS)
ቤተ መጻሕፍቲ ባይዱ
• [例10．3] 从一个 N=100人的总体中抽取一个n＝25 人的简单随机样本。记回答单元的数量为nr，结果显示只有20个人提供了所需的信息。那么，此时无回答的调整
抽样估计与样本量确定
10．1 引言
• 估计就是根据从样本中收集的信息对总体未知量进行推断的过程。
• 抽样估计涉及的重要问题：
– 一个样本单元的设计权数问题。 – 抽样估计，包括总体总量、均值和比例以及抽
样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和
内容。同时，样本量的确定与样本估计值的精度密不可分。
– 另外， PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计，如果无需对权数调整，则在计算比例、均值等估计量时可将其忽略，对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
不等概率抽样的加权
• 自加权设计并不总是可行的。如，在使用分层抽样进行一个全国调查时，可能需要采用纽曼分层。
总体大小样本量
回答者数量
N1＝1000 N2＝100
n1＝200 n2＝50
nr,1＝150 nr,2＝40
步骤1：各层的设计权数为：城市层 wd,1＝N1/n1==5 农村层 wd,2＝N2/n2==2
步骤2：调整以弥补无回答。各层的无回答调整因子计算如下：城市层：n1 / nr,1==200/150==1.33 农村层：n2 / nr,2==50/40==1.25
• 在收集有关吸烟习惯信息时，收集了每个回答者的年龄和性别情况，且100人都做出了回答，由此得到
样本数据的分布如表10-3所示：
[例10．5] 计算过程
步骤1：设计权数是入样概率的倒数，设计权数计算如下：
wd＝N/n=780/100=7.8
步骤2：利用设计权数，计算得到调查估计值，如表10-4所示。
权数是多少？
步骤1：计算设计权数。入样概率p为：P=n/N=25/100=1/4 故，每个样本单元的设计权数为4。
步骤2：计算无回答调整因子。由于在n＝25人中只有nr=20人提供了
所需的信息，最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元，计算无回答调整因子为：
n / nr = 25/20 = 1.25 步骤3：计算无回答的调整权数。
无回答的调整权数wnr等于设计权数与无回答调整因子的乘积：
wnrwdnnr 41.255
对无回答的权数调整(STR)
• [例10．4] 对于一项公共交通
系统调查，总体由1100人组成，层并按城乡分为两个层。分层及样本数据如表10-2所示。那么，城市
回答者的权数是多少？
农村
表10-2 公交系统调查的分层数据
10．2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元数，它是由抽样设计所决定的，通常以wd表示。确定设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10，那么每个入选样本代表总体中的10 个单元，此时设计权数即为10。
步骤3：无回答的调整权数等于设计权数与无回答调整因子的乘积：
城市层：农村层：
wnr, 1 wd, 1nnr1, 151.336.67 wnr, 2 wd,2nnr2,221.252.5
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢？
– 首先，使调查的估计值与已知总体总值相匹配。例如，使用最新的人口普查数据来调整估计值，以确保这些估计值(如年龄、性别分布等)的一致性。
– 二是为了提高估计值的精度。将辅助信息与抽样设计相结合，将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息，抽样框中的所有单元都必须具备这个辅助信息。否则，就只能在数据收集上来后，在估计阶段利用辅助信息提高估计值的精度。
使用辅助信息调整权数
• [例10．5] 为得到某公司职员是否有吸烟习惯的信息，进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。
– 不同样本单元的设计权数可能不同，这取决于抽样设计。因此，加权估计应区分等概率抽样的加权和不等概率抽样的加权。
等概率抽样的加权
• 当每个单元都有相同的入样概率时，所有样本单元的设计权数都相同，这种抽样就是自加权设计。
– SRS抽样和SYS抽样都属于自加权设计，比例分层抽样也是自加权设计。
估计公司男女性职员各有429名和351名，且吸烟比例不同。
假定调查完成后，得到如下辅助信息：该公司实际共有360名男
性职员和420名女性职员。如何利用这个辅助信息呢？
步骤3：对样本分层，计算事后分层权数用于估计。
事后分层权数Wpst是事后层的辅助变量总和除以该层回答单元的
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。
• 权数估计常会遇到更真实和复杂的情况：
– 考虑无回答的情况，然后对权数做出调整； – 考虑来自其他渠道的、更具权威性的某些辅助
信息，将它们合并到权数中。
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而，如果发现忽略单元无回答是不适当的，则应该对权数进行调整。即，

e商务文档

抽样估计与样本量确定优秀课件

相关文档推荐：