当前位置:
文档之家› 抽样估计与样本量确定优秀课件
抽样估计与样本量确定优秀课件
• 当所采用的抽样设计不是等概率时,正确地使用设计权 数就显得尤为重要。
• [例10.2] 有关各层总体数和样本数资料见表10-1。对 于这项调查,被调查者的设计权数是多少呢?
收入层次 高收入层 中收入层 低收入层
各层单位数 2000 12000 6000
样本数量 33.3 133.3 33.3
设计权数 wd,1=N1/n1=2000/33.3=60.1 wd,2=N2/n2=12000/133.3=90.0 wd,3=N3/n3=6000/33.3=180.2
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。
• 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
对无回答的权数调整(SRS)
ቤተ መጻሕፍቲ ባይዱ
• [例10.3] 从一个 N=100人的总体 中抽取一个n=25 人的简单随机样本。 记回答单元的数量 为nr,结果显示只 有20个人提供了所 需的信息。那么, 此时无回答的调整
抽样估计与样本量 确定
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。
• 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽
样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和
内容。同时,样本量的确定与样本估计值的精 度密不可分。
– 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。
总体大小 样本量
回答者数量
N1=1000 N2=100
n1=200 n2=50
nr,1=150 nr,2=40
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2
步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25
• 在收集有关吸烟习惯信息时,收集 了每个回答者的年龄和性别情况, 且100人都做出了回答,由此得到
样本数据的分布如表10-3所示:
[例10.5] 计算过程
步骤1:设计权数是入样概率的倒数,设计权数计算如下:
wd=N/n=780/100=7.8
步骤2:利用设计权数,计算得到调查估计值,如表10-4所示。
权数是多少?
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。
步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了
所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为:
n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。
无回答的调整权数wnr等于设计权数与 无回答调整因子的乘积:
wnrwdnnr 41.255
对无回答的权数调整(STR)
• [例10.4] 对于一项公共交通
系统调查,总体由1100人组成, 层 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 城市
回答者的权数是多少?
农村
表10-2 公交系统调查的分层数据
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。
步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
城市层: 农村层:
wnr, 1 wd, 1nnr1, 151.336.67 wnr, 2 wd,2nnr2,221.252.5
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。
– 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
使用辅助信息调整权数
• [例10.5] 为得到某公司职员是否 有吸烟习惯的信息,进行了一项调 查。从N=780人的名录中抽出了 一个n=100人的简单随机样本。
– 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。
估计公司男女性职员各有429名和351名,且吸烟比例不同。
假定调查完成后,得到如下辅助信息:该公司实际共有360名男
性职员和420名女性职员。如何利用这个辅助信息呢?
步骤3:对样本分层,计算事后分层权数用于估计。
事后分层权数Wpst是事后层的辅助变量总和除以该层回答单元的
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。
• 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助
信息,将它们合并到权数中。
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,