第三章 简单随机抽样
(三)不放回和放回简单随机抽样 的比较
每次抽样面对的总体结构不同。放回抽样总体结 构不变,每次抽取相互独立,不放回抽样总体结 构改变,每次抽取不相互独立,前者的数学处理 简单。 样本提供的信息量不同。不放回抽样信息量更大, 抽样效率高。 样本单位数量限制不同。 一般采用不考虑顺序的不放回简单随机抽样。
因素二:实际调查运作的机制。调查经费 能支持多大样本?允许调查持续的时间多 久?需要多少调查人员?多种约束条件。 能够量化的因素只有抽样精度和调查费用。 方案:总费用一定的条件下精度最高;或 者在满足一定精度要求的条件下使费用最 小。
费用公式: C C 0 cn
C 为 总 费 用 , C 0为 与 样 本 量 无 关 的 固 定 费 用 , 包括管理人员的工资、调查表的设计、必要的 设 备 以 及 组 织 、 宣 传 等 固 定 费 用 , c为 平 均 调 查 一个样本的变动费用,包括调查表的印制、调查 员的工资和差旅费、礼品费以及调查本身的费用。 n= C-C0 c
2
n)
n ( N 1)
N PQ (N n)
2
n ( N 1)
V(p)的无偏估计量是v(p)
v( p)
N n ( n 1) N n 1
pq
1 f n 1
pq
v( N1)
N (N n)
p q 是 V ( N 1 )的 无 偏 估 计
当N,n,N-n都比较大时,以正态分布给出P及N1的 近似置信区间(置信度1-a)为
n
(一)放回简单随机抽样
设总体有5个单位(1,2,3,4,5),按 放回简单随机抽样的方式抽取2个单位,若 考虑样本单位的顺序,则所有的可能样本 为25个,若不考虑样本单位的顺序,则所 有可能样本为15个。 不考虑顺序的放回简单随机抽样的估计量 方差大于或等于考虑顺序时的估计量的方 差。只讨论和使用考虑顺序的情形。
Y
i 1
N
i
Y
N N1 N
1 P
总体比例是总体均值的一种特殊表现形式,对 总体比例的估计就是对总体均值的估计,对总体 中 具 有 某 种 属 性 单 位 的 总 个 数 N 1的 估 计 就 是 对 总体总值估计的一个特例。
二、总体比例的简单估计量及性质
(一)简单估计量的定义 利用简单随机抽样抽取n个单位组成样本,其中n1 个单位具有某种属性,则样本比例是总体比例的简 n 单估计量。
以 9 5% 的 把 握 估 计 人 均 消 费 5 3 .6 4 1 .9 6 *6 .1 4 2 8 , 既 4 1 .6 0 ~ 6 5 .6 8
二、总体总值的简单估计
•总体总值
_
Y=N Y
Y
i
•总体总值的简单估计量
Y N y
N n
n
yi
i 1
•总体总值估计量的性质由总体均值估计量的性质 决定。简单随机抽样的 是 的无偏估计量。 Y Y •方差 V ( Y ) 无偏估计为
二、估计总体均值(总值)的样本 量确定
总体总值是总体均值N倍,N是常数,对样本量的 确定不起决定作用,只须估计总体均值的情形。
n
N
总体中任意两个单位出现在全部可能样本中的次数都 n 相等是 C n 2 每一单位入样概率 C N 22 n ( n 1)
N 2
CN
n
N ( N 1)
对称性论证法 (三)简单估计量的方差 1 f 2 V ( y) S n (四)简单估计量方差的无偏性 简单随机样本的方差 s 1 ( y 2 n 1 S 的无偏估计。
28 29 30 31 32 33 34 35 36
25 28 90 17 57 43 146 19 47
2
y i 1 9 3 1( 元 ) , 5 3 .6 4, (1 f ) / n 0 .0 2 7 7 1 2, y
2
s 1 3 5 8 .4 1, v ( y ) (1 f ) s / n 3 7 .6 4 4 4, se ( y ) 6 .1 3 5 5
(二)不放回简单随机抽样
不考虑样本单位顺序,可能的样本为 每个样本被抽中的概率为 1 / C
n N
CN
n
个。
虽然样本个数不同,但有同样的概率分布。
(二)不放回简单随机抽样
设总体有5个单位(1,2,3,4,5),按 不放回简单随机抽样的方式抽取2个单位, 若考虑样本单位的顺序,则所有可能样本 20个。若不考虑样本单位的顺序,所有可 能样本为10个。二者概率分布相同,不考 虑顺序的工作量小,所以对于不放回抽样, 只讨论不考虑顺序的不放回抽样。
第三章 简单随机抽 样
本章教学目的与要求
简单随机抽样是抽样中最基本、最成熟、 最简单的抽样设计方式,是所有概率抽样 方法发展、比较的基础。具体要求: 通过学习,熟练掌握简单随机抽样的抽样 方式和样本抽选方法; 熟知总体均值、总体总值和总体比例的简 单估计; 掌握样本量的确定; 了解子总体的估计。
一、确定样本量主要考虑因素 样本量过大,容易产生非抽样误差,样本 量过小,产生抽样误差。 因素一:对抽样估计量精度的要求。精度 要求高,即要求抽样误差小,则必须样本 量大。总体单位调查标志的变异程度、总 体的大小、样本设计和所使用的估计量、 回答率等都是影响估计精度的因素。
一、确定样本量主要考虑因素
v (Y ) N v ( y )
2
N (1 f )
2
s
2
n
第三节 总体比例的简单估计
一、总体比例 总体中具有某种属性的单位占总体单位的比例或 具有某种属性单位的总个数,也称成数。
设总体有N个单位,具有某种属性的单位N1个, 不具有该属性的单位有N-N1个。
1, 总 体 单 元 具 有 某 种 属 性 Yi 0, 总 体 单 元 不 具 有 某 种 属 性 P Q N1 N 1 N
tS E ( ) t
V ( ) , 绝 对 允 许 误 差
t
S E ( )
tC V ( ), 相 对 允 许 误 差
C V ( )
S E ( )
,变 异 系 数
S E ( ) 估 计 量 的 标 准 差
•达到要求精度,就是控制抽样误差,估计量的标准差 或变异系数都是n的函数,只要给定对精度的要求,就 可以求出最低样本量要求。
p
n1 n
yi
i 1
y
n
N1 Np
是总体中具有某种属性单位的总个数
N 1 的简单估计量。
(二)估计量性质
p是P的无偏估计量。 p的方差 PQ (N
V ( p)
N 1 N p 是 N 1的 无 偏 估 计 , 且 V (N1) V (NP) N V ( p)
二、简单随机样本的抽选方法
抽签法:材质相同N个签,一次抽n,或者 一次抽1个直到抽够n. 随机数表法 随机数色子 摇奖机 计算机产生
三、简单随机抽样的地位与局限
抽样技术的重要理论基础。 当N很大时,编制抽样框困难;有辅助信 息不加利用,统计效率低下;样本分布广 泛时,抽样费时费力;可能得到差的样本。
N ( N n) pq
), N p ( t
N ( N n) pq
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P 0.5
nP 15
n 30
0.4
0.3 0.2 0.1 0.05 0
(二)不放回简单随机抽样
不放回也称不重复抽样,每次从总体中随机抽取 一个样本单位,经调查观测后,不再将该单位放 回总体参加下一次抽样,然后再在剩下的总体单 位中随机抽取下一个样本单位进行调查观测,直 到抽够n个样本单位为止。
考虑顺序可能的样本为
N !
Hale Waihona Puke N n!
每个样本被抽中的概率为
(N n)! N !
第一节 抽样方式
简单随机抽样(simple random sampling): 也称纯随机抽样。对于大小为N的总体,抽 取样本量为n的样本,若全部可能的样本被 抽中的概率都相等,则称这样的抽样为简 单随机抽样。 可以分为放回和不放回抽样。
(一)放回简单随机抽样
放回抽样也称重复抽样。做法是每次从总体中随机 抽取一个样本单位,经调查观测后,将该单位重新 放回总体,然后再在总体中随机抽取下一个单位进 行调查观测,依次重复这样的步骤,直到从总体中 随机抽够n个样本单位为止。 n 可能的样本为 N ( 考虑顺序) 或 C N n 1 放回抽样的特点:同一个单位有可能在同一个样本 中重复出现。
(1 f ) p q n 1 n 1 ,pt (1 f ) p q n 1 ]
[p t [Np t
N ( N n) pq
, Np t
N ( N n) pq n 1
]
离散二项分布调整为连续正态分布 [ p (t [ N p (t (1 f ) p q n 1 n 1 1 2n N 2n ), p ( t (1 f ) p q n 1 1 2n n 1 N 2n )] )]
V ( y)
的无偏