当前位置：文档之家› 抽样理论与参数估计

抽样理论与参数估计

近似正态分布的比率样本分布
• 平均数 p p
• 标准误

2
pq n
x n
• 样本比率，是总体比率p的点估计 ˆ 、 ˆ q 值，因此，当总体p、q不知时，可用 p 代替。
ˆ p
一、比率的区间估计
• （二）比率的区间估计 ˆ ≥5时，比率的置信区间可写作： • 当n p
ˆ Z / 2 p p p pq n
第七章参数估计
• • • • • 第一节点估计、区间估计与标准误第二节总体平均数的估计第三节标准差与方差的区间估计第四节相关系数的区间估计第五节比率及比率差异的区间估计
一、标准差的区间估计
• 标准差分布的标准误为 s • 当样本容量n>30时，样本标准差的分布渐近正态分布。标准差分布的平均数为：X s 标准差分布的标准误为： s
1 2 F / 2 2 F / 2 S n 2 -1 S n 2 -1
2 1 2 2
S2 n1 -1
S2 n1 -1
自由度分别为：
df1 n1 1
df2 n2 1
若计算出来的区间包含1，则可以推论二总体方差相等。
第四节相关系数的区间估计
一、积差相关系数的抽样分布
• 1、因为斯皮尔曼等级相关系数在9≤n≤20 时，rR的分布近似为df=n-2，的t分布。标准误为： SE 1nr2 • 若符合这个条件，可依此分布及标准误计算置信区间： 1 rR2 rR t / 2 n2 （df=n-2） • 2、若n>20，rR的分布近似正态分布，标准误仍然为SE 1 r ，t / 2 改为 Z / 2 求置信区间。
• 其中 t / 2 的自由度为n-2，
1 r 2 r n2
• 2、当总体相关系数不为零时： • 如果n>500，可用下式计算置信区间
r Z / 2 r r Z / 2 r
• 利用费舍Z函数分布计算 Zr Z / 2 SEZ
SEZ 1 n 1
三、等级相关系数的区间估计
第七章参数估计
• • • • • 第一节点估计、区间估计与标准误第二节总体平均数的估计第三节标准差与方差的区间估计第四节相关系数的区间估计第五节比率及比率差异的区间估计
一、点估计的定义
• 定义
– 点估计是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。
• 总体的相关系数可取任意值，从这样的总体中抽取n对数据，计算其相关系数r，这时 r的样本分布随二总体之相关程度不同而异。 • ρ ≠0，只有样本量很大时，才渐近正态分 2 1 r 布。标准误为： r
• ρ =0，样本分布服从自由度df=n-2的t分布。标准误为： 1 r 2
r
• 样本分布提供概率解释； • 标准误的大小决定区间估计的长度。
区间估计的两个问题
• 成功估计的概率 • 估计范围的大小
• 这两个问题是一对矛盾，统计分析中一般采取一种妥协办法：即在保证置信度的前提下，尽可能提高精确度。
常用的置信度
• 小概率事件 • 显著性水平一般常用0.05和0.01 • 常用的置信度为0.95和0.99
置信区间与显著性水平
• 置信区间
– 置信区间也称置信间距，是指在某一置信度时，总体参数所在的区域距离或区域长度。
• 显著性水平
– 显著性水平指估计总体参数落在某一区间时，可能犯错误的概率，用符号α 表示。1-α 为置信度或置信水平。
例如
• 0.95置信区间是指总体参数落在该区间之内，估计正确的概率为95％，而出现错误的概率为5％（α =0.05）。
ˆ ≤5，或 p ˆ 甚小时，置信区间的估计 • 当n p 不能应用公式，因为此时二项分布不接近正态，亦比率的样本分布不近似正态。此种情况可直接查根据二项分布计算的统计表（附表13）。
二、比率差异区间估计
• （一）两样本比率差异的抽样分布 • 从总体比率分别为p1与p2的二总体中随机抽 ˆ2 。 ˆ1 与 p 取样本容量为n1及n2的样本，得到 p ˆ1 p ˆ1 Dp分布当np1≥5，np2≥5时，统计量 p 为正态分布。 • 平均数为： p p
• 1、根据实得样本的数据，计算样本的平均数与标准差。 X • 2、计算标准误 • 总体方差已知：
X
n
• 总体方差未知： X

S n 1
一、估计总体平均数的步骤2
• 3、确定置信水平或显著性水平。 • 4、根据样本平均数的抽样分布，确定查何种统计表。 –一般当总体方差已知时，查正态表； –当总体方差未知时，查t值表（n>30时，也可查正态表作近似计算）。 • 5、计算置信区间 X Z / 2 X <μ < X Z / 2 X – 查正态表： – 查t表： X t / 2 X <μ < X t / 2 X • 6、解释总体平均数的置信区间。
ˆ1 p ˆ 2 ) Z / 2 p1 p2 ( p ˆ 1q ˆ1 p ˆ q ˆ p 2 2 n1 n2
• ②若p1=p2=p，置信区间为：p1-p2=0
ˆ1 p ˆ 2 ) Z / 2 p1 p 2 ( p ˆ1 n2 p ˆ 2 )(n1q ˆ1 n2 q ˆ2 ) (n1 p n1n2 (n1 n2 )
• 由此可见：
–0.95置信间距=0.05显著性水平的置信间距或0.05置信度的置信间距。 –0.99置信间距=0.01显著性水平的置信间距或0.01置信度的置信间距。
区间估计的原理
• 区间估计的原理是样本分布理论。 • 区间估计是根据样本分布理论，用样本分布的标准误（SE）计算区间长度，解释总体参数落入某置信区间可能的概率。
n2
n 1
Hale Waihona Puke 费舍(Fisher)的Z分布
• 当总体相关系数ρ ≠0时，样本相关系数的分布，只有当n充分大时，才渐近正态分布，其分布函数很复杂。 • 这时可以利用费舍Z分布将r转换为Z。
• 标准误：
1 SEZ n3
二、积差相关系数的区间估计
• 1、当总体相关系数为零时： r t / 2 r r t / 2 r
第七章参数估计
教学目标
• 了解参数估计的类型； • 理解参数估计的意义与原理； • 掌握点估计和区间估计的方法。
推论统计的两大问题
• 总体参数估计
– 参数估计和非参数估计 – 参数估计包括：点估计和区间估计
• 假设检验
第七章参数估计
• • • • • 第一节点估计、区间估计与标准误第二节总体平均数的估计第三节标准差与方差的区间估计第四节相关系数的区间估计第五节比率及比率差异的区间估计
• 总体方差未知，用样本的无偏方差作为总体方差的估计值。 S n 1 S
X
n n 1
• 并且此时样本平均数的分布为t分布，需要查表确定双侧t临界值。（例题p.226） • 需要注意：①总体的分布为正态时，可不管n之大小。 ②总体分布为非正态时，只有 n>30，才能用概率对其样本分布进行解释，否则则不能推论。
pe n1 p1 n2 p2 n1 n2
qe 1 pe
Dp p1 p 2
ˆ1 n2 p ˆ 2 )(n1q ˆ1 n2 q ˆ2 ) (n1 p n1n2 (n1 n2 )
二、比率差异区间估计
• （二）比率差异的区间估计 • 根据比率差异的样本分布，当n1p1≥5， n2p2≥5时，比率差异的置信区间可用正态分布概率计算。 • ①若p1≠p2，置信区间为：
其他总体参数的估计
• 估计原理与平均数的估计原理相同。
• 所依据的样本分布和标准误不同。
第七章参数估计
• • • • • 第一节点估计、区间估计与标准误第二节总体平均数的估计第三节标准差与方差的区间估计第四节相关系数的区间估计第五节比率及比率差异的区间估计
一、估计总体平均数的步骤1
p1 p2 1 2
• 标准误为：
p
1 p2

p1q1 p2 q2 n1 n2
特殊情况
• 1、如果p1与p2未知，可分别用两样本的比 ˆ 2 作为p 与p 的点估计值，前面公式 ˆ1 与 p 率p 1 2 可写作： ˆ 1q ˆ1 p ˆ 2q ˆ2 p
p
1 p2

n1

n2
• 2、如果p1=p2=p，则该两样本是取自同一 ˆ 2 ，都可作为p ˆ1 与 p 总体，该两样本之比率 p 的点估计值，这是其标准误的计算不单独 ˆ 2 ，而是用平均的比率(pe)： ˆ1 与 p 用p
二、总体方差已知时，对总体平均数的估计
• 1、当总体分布为正态时，不论样本量n 的大小，其标准误都是： n （例题p.224） • 2、当总体为非正态分布时，只有当样本容量n>30以上，才能根据样本分布对总体平均数进行估计。（例题p.225）
X
三、总体方差未知，对总体平均数的估计
三、两总体方差之比的区间估计
• 两个方差之比服从F分布
F
2 Sn 1 1 2 Sn 2 1
• 如果两总体方差 12 22 2，样本方差之比多数应在1上下摆动。因此，对二总体方差相等的区间估计，不是用 0 ，而是用 12
2 1 2 2
2
2
1
估计二总体方差之比的置信区间
2 R r
2 R
r
n2
第五节比率及比率差异的区间估计
一、比率的区间估计

e商务文档

抽样理论与参数估计

相关文档推荐：