当前位置:文档之家› 抽样估计与样本量确定(市场调查)

抽样估计与样本量确定(市场调查)

調查分析預測
MRAF
第10章 抽样估计与样本量确定
1
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• ―百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。 • 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
[例10.5] 计算过程
步骤 1:设计权数是入样概率的倒数,设计权数计算如下: wd=N/n=780/100=7.8 步骤 2:利用设计权数,计算得到调查估计值,如表10-4所示。 估计公司男女性职员各有429名和351名,且吸烟比例不同。 假定调查完成后,得到如下辅助信息:该公司实际共有360名男 性职员和420名女性职员。如何利用这个辅助信息呢? 步骤 3:对样本分层,计算事后分层权数用于估计。 事后分层权数W pst是事后层的辅助变量总和除以该层回答单元的 数量。 N 男性 360 w 6.55 其中,男性的事后分层权数为: pst ,男性 n r,男性 55 女性的事后分层权数为:w pst ,女性
表10-5 利用辅助信息对抽样调查估计值的调整
事后分层 估计值 吸烟人数 总人数 吸烟者比例
男性 164 360 0.455
女性 47 420 0.111
总计 211 780 0.271 12
在抽样后利用辅助信息计算分层权数用于估计,估计值如表10-5。
調查分析預測
MRAF
10.3 抽样分布与抽样误差
3
調查分析預測
MRAF
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数 与无回答调整因子的乘积:
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
8
調查分析預測
MRAF
对无回答的权数调整(SRS)
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
中心极限定理,概括为:
设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本, 当n足够大(n 30)时,样本均值的抽样分布近似服从均值为μ、方差 为σ2/n的正态分布。
16
調查分析預測
MRAF
样本比例的抽样分布
• 样本比例的抽样分布,是在重复抽取容量为n的样本时, 由样本比例的所有可能取值形成的相对频数分布。 • 比较样本比例的分布与总体分布,得出如下结论:
2
調查分析預測
MRAF
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
• 抽样调查的目的是要对总体做出推断。 • 了解统计推断的理论基础,首先注意区分三 种不同性质的分布:
– 总体分布 – 样本分布 – 抽样分布
• 同时,特别注意总体分布与抽样分布的关系。
13
調查分析預測
MRAF
三种不同性质的分布
• 总体分布:总体各单位的观察值所形成的频数分布,总 体分布通常是未知的。 • 样本分布:一个样本中各个观察值所形成的频数分布就 叫做。当样本容量n逐渐增大时,样本分布逐渐接近总 体的分布。 • 抽样分布:样本统计量的抽样分布,是指在重复选取容 量为n的样本时,由该统计量的所有可能取值形成的相 对频数分布。抽样分布是一种理论分布。 • 抽样分布提供了样本统计量长远而稳定的信息,是进行 推断的理论基础。
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
– 当样本容量足够大时,样本比例的抽样分布近似地服从正态分布, 样本比例的数学期望等于总体比例,即E(p)=π;在重复抽样条件 下,样本比例的方差为总体方差的1/n,即
样本比例 的方差:
Sp
2
(1 )
n
样本比例 S 的标准误: p
(1 )
n
• 样本比例的中心极限定理
– 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样 本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为π、 方差为(1-)/n的正态分布。
調查分析與預測 MRAF
从总体分布到抽样分布
[例10.6] 设一个总体,含有4个元素(个体) ,即总体单位数 N =4。4个个体分别为x1=1,x2=2,x3=3,x4=4。 可以计算总体均值、方差及其分布。
总体均值

x
i 1
N
P(x)
i
N
N
1 2 3 4 2.5 4
i
0.3 0.2 0.1
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
7
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
表10-6 各种分布的均值、比例和标准差的符号表示
分布类型
均值
比例
标准差
总体分布 样本分布
抽样分布

X


x
P
P
SX
S
SP
14
調查分析預測
MRAF
样本均值的抽样分布
• 样本均值的抽样分布,是 指在重复选取容量为n的 样本时,由样本均值的所 有可能取值形成的相对频 数分布。 • [例10.6]设一个总体, 含有4个元素,即总体单位 数N =4。4个个体分别为 x1=1, x2=2, x3=3, x4=4。 则总体分布如图10-1。 • 现在从总体中有放回地抽 取n=2的简单随机样本, 则样本均值的抽样分布如 图10-2。
城市层:
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
10
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
N 女性 n r,女性 420 9.33 45
回答者数量
男性
女性
总计
吸烟人数
总人数 调查的估计值
25
55 男性
5
45 女性
30
100 (nr) 总计
表10-4 根据某公司吸烟习惯抽样计算的估计值
吸烟人数
总人数 吸烟者的比例
195
429 0.455
39
351 0.111
234
780 0.30
4
பைடு நூலகம்查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。
相关主题