抽样理论与参数估计
近似正态分布的比率样本分布
• 平均数 p p
• 标准误
2
pq n
x n
• 样本比率 ,是总体比率p的点估计 ˆ 、 ˆ q 值,因此,当总体p、q不知时,可用 p 代替。
ˆ p
一、比率的区间估计
• (二)比率的区间估计 ˆ ≥5时,比率的置信区间可写作: • 当n p
ˆ Z / 2 p p p pq n
第七章 参数估计
• • • • • 第一节 点估计、区间估计与标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
一、标准差的区间估计
• 标准差分布的标准误为 s • 当样本容量n>30时,样本标准差的分布渐 近正态分布。 标准差分布的平均数为:X s 标准差分布的标准误为: s
1 2 F / 2 2 F / 2 S n 2 -1 S n 2 -1
2 1 2 2
S2 n1 -1
S2 n1 -1
自由度分别为:
df1 n1 1
df2 n2 1
若计算出来的区间包含1,则可以推论二总 体方差相等。
第四节 相关系数的区 间估计
一、积差相关系数的抽样分布
• 1、因为斯皮尔曼等级相关系数在9≤n≤20 时,rR的分布近似为df=n-2, 的t分布。标准误为: SE 1nr2 • 若符合这个条件,可依此分布及标准误计 算置信区间: 1 rR2 rR t / 2 n2 (df=n-2) • 2、若n>20,rR的分布近似正态分布,标准 误仍然为SE 1 r ,t / 2 改为 Z / 2 求置信区间。
• 其中 t / 2 的自由度为n-2,
1 r 2 r n2
• 2、当总体相关系数不为零时: • 如果n>500,可用下式计算置信区间
r Z / 2 r r Z / 2 r
• 利用费舍Z函数分布计算 Zr Z / 2 SEZ
SEZ 1 n 1
三、等级相关系数的区间估计
第七章 参数估计
• • • • • 第一节 点估计、区间估计与标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
一、点估计的定义
• 定义
– 点估计是用样本统计量来估计总体参数,因为 样本统计量为数轴上某一点值,估计的结果也 以一个点的数值表示,所以称为点估计。
• 总体的相关系数可取任意值,从这样的总 体中抽取n对数据,计算其相关系数r,这时 r的样本分布随二总体之相关程度不同而异。 • ρ ≠0,只有样本量很大时,才渐近正态分 2 1 r 布。标准误为: r
• ρ =0,样本分布服从自由度df=n-2的t分布。 标准误为: 1 r 2
r
• 样本分布提供概率解释; • 标准误的大小决定区间估计的长度。
区间估计的两个问题
• 成功估计的概率 • 估计范围的大小
• 这两个问题是一对矛盾,统计分析中一 般采取一种妥协办法:即在保证置信度 的前提下,尽可能提高精确度。
常用的置信度
• 小概率事件 • 显著性水平一般常用0.05和0.01 • 常用的置信度为0.95和0.99
置信区间与显著性水平
• 置信区间
– 置信区间也称置信间距,是指在某一置 信度时,总体参数所在的区域距离或区 域长度。
• 显著性水平
– 显著性水平指估计总体参数落在某一区 间时,可能犯错误的概率,用符号α 表 示。1-α 为置信度或置信水平。
例如
• 0.95置信区间是指总体参数落在该区 间之内,估计正确的概率为95%,而 出现错误的概率为5%(α =0.05)。
ˆ ≤5,或 p ˆ 甚小时,置信区间的估计 • 当n p 不能应用公式,因为此时二项分布不接近 正态,亦比率的样本分布不近似正态。此 种情况可直接查根据二项分布计算的统计 表(附表13)。
二、比率差异区间估计
• (一)两样本比率差异的抽样分布 • 从总体比率分别为p1与p2的二总体中随机抽 ˆ2 。 ˆ1 与 p 取样本容量为n1及n2的样本,得到 p ˆ1 p ˆ1 Dp分布 当np1≥5,np2≥5时,统计量 p 为正态分布。 • 平均数为: p p
• 1、根据实得样本的数据,计算样本的平 均数与标准差。 X • 2、计算标准误 • 总体方差已知:
X
n
• 总体方差未知: X
S n 1
一、估计总体平均数的步骤2
• 3、确定置信水平或显著性水平。 • 4、根据样本平均数的抽样分布,确定查何 种统计表。 –一般当总体方差已知时,查正态表; –当总体方差未知时,查t值表(n>30时, 也可查正态表作近似计算)。 • 5、计算置信区间 X Z / 2 X <μ < X Z / 2 X – 查正态表: – 查t表: X t / 2 X <μ < X t / 2 X • 6、解释总体平均数的置信区间。
ˆ1 p ˆ 2 ) Z / 2 p1 p2 ( p ˆ 1q ˆ1 p ˆ q ˆ p 2 2 n1 n2
• ②若p1=p2=p,置信区间为:p1-p2=0
ˆ1 p ˆ 2 ) Z / 2 p1 p 2 ( p ˆ1 n2 p ˆ 2 )(n1q ˆ1 n2 q ˆ2 ) (n1 p n1n2 (n1 n2 )
• 由此可见:
–0.95置信间距=0.05显著性水平的置信间 距或0.05置信度的置信间距。 –0.99置信间距=0.01显著性水平的置信间 距或0.01置信度的置信间距。
区间估计的原理
• 区间估计的原理是样本分布理论。 • 区间估计是根据样本分布理论,用样本分 布的标准误(SE)计算区间长度,解释总 体参数落入某置信区间可能的概率。
n2
n 1
Hale Waihona Puke 费舍(Fisher)的Z分布
• 当总体相关系数ρ ≠0时,样本相关系数 的分布,只有当n充分大时,才渐近正态 分布,其分布函数很复杂。 • 这时可以利用费舍Z分布将r转换为Z。
• 标准误:
1 SEZ n3
二、积差相关系数的区间估计
• 1、当总体相关系数为零时: r t / 2 r r t / 2 r
第七章 参数估计
教学目标
• 了解参数估计的类型; • 理解参数估计的意义与原理; • 掌握点估计和区间估计的方法。
推论统计的两大问题
• 总体参数估计
– 参数估计和非参数估计 – 参数估计包括:点估计和区间估计
• 假设检验
第七章 参数估计
• • • • • 第一节 点估计、区间估计与标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
• 总体方差未知,用样本的无偏方差作为总 体方差的估计值。 S n 1 S
X
n n 1
• 并且此时样本平均数的分布为t分布,需要 查表确定双侧t临界值。 (例题p.226) • 需要注意:①总体的分布为正态时,可不 管n之大小。 ②总体分布为非正态时,只有 n>30,才能用概率对其样本分布进行解释, 否则则不能推论。
pe n1 p1 n2 p2 n1 n2
qe 1 pe
Dp p1 p 2
ˆ1 n2 p ˆ 2 )(n1q ˆ1 n2 q ˆ2 ) (n1 p n1n2 (n1 n2 )
二、比率差异区间估计
• (二)比率差异的区间估计 • 根据比率差异的样本分布,当n1p1≥5, n2p2≥5时,比率差异的置信区间可用 正态分布概率计算。 • ①若p1≠p2,置信区间为:
其他总体参数的估计
• 估计原理与平均数的估计原理相同。
• 所依据的样本分布和标准误不同。
第七章 参数估计
• • • • • 第一节 点估计、区间估计与标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
一、估计总体平均数的步骤1
p1 p2 1 2
• 标准误为:
p
1 p2
p1q1 p2 q2 n1 n2
特殊情况
• 1、如果p1与p2未知,可分别用两样本的比 ˆ 2 作为p 与p 的点估计值,前面公式 ˆ1 与 p 率p 1 2 可写作: ˆ 1q ˆ1 p ˆ 2q ˆ2 p
p
1 p2
n1
n2
• 2、如果p1=p2=p,则该两样本是取自同一 ˆ 2 ,都可作为p ˆ1 与 p 总体,该两样本之比率 p 的点估计值,这是其标准误的计算不单独 ˆ 2 ,而是用平均的比率(pe): ˆ1 与 p 用p
二、总体方差已知时,对总体平均数的 估计
• 1、当总体分布为正态时,不论样本量n 的大小,其标准误都是: n (例题p.224) • 2、当总体为非正态分布时,只有当样本 容量n>30以上,才能根据样本分布对总 体平均数进行估计。 (例题p.225)
X
三、总体方差未知,对总体平均数 的估计
三、两总体方差之比的区间估计
• 两个方差之比服从F分布
F
2 Sn 1 1 2 Sn 2 1
• 如果两总体方差 12 22 2,样本方差之 比多数应在1上下摆动。因此,对二总体 方差相等的区间估计,不是用 0 , 而是用 12
2 1 2 2
2
2
1
估计二总体方差之比的置信区间
2 R r
2 R
r
n2
第五节 比率及比率差 异的区间估计
一、比率的区间估计