统计推断 —参数估计课件
统计推断 —参数估计
统计推断的思路
总体
个体、个体变异
随机 抽样
样本
代表性、抽样误差
总体参数
未知
统计 推断
样本统计量
已知
风 险
统计推断的内容
• 统计推断(statistical inference),是指
如何用样本性质推断总体特征。
– 参数估计(parameter estimation)
– 假设检验(hypothesis test)
概 自由度 1 2 3 4 5 100 200 500 1000 单侧 双侧 0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.677 0.676 0.675 0.675 0.6745 0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.845 0.843 0.842 0.842 0.8416 0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.290 1.286 1.283 1.282 1.2816 0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.660 1.653 1.648 1.646 1.6449
• 即该地正常成年男子脉搏总体均数的 95%可信区间为:
70.9~76.3(次/分) 。用该区间估计该地正常成年男子脉
搏总体均数的可信度为95%。
例4.2
• 某市 2001 年 120 名 7 岁男孩身高均数为 123.62cm,标准差为4.75cm,计算该市
7岁男童总体均数90%的可信区间。
附表2
例4.1
• 本例自由度=12-1=24,经查表得t0.05,24=2.064,则
X t0.05,24 sX 73.6 2.064 6.5/ 25 70.9(次 / 分) X t0.05,24 sX 73.6 2.064 6.5/ 25 76.3(次 / 分)
均数的可信区间
P(t , t t , ) 1
P(t , X t , ) 1 sX
P( X t , sX X t , sX ) 1
• 总体均数的(1- )可信区间定义为:
X t
,
sX , X t , s X
单侧 双侧
概 率,P 0.25 0.20 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 0.50 0.40 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 1.000 1.376 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 0.816 1.061 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 0.765 0.978 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924 0.741 0.941 1.533 2.132 2.776 3.747 4.604 5.598 0.727 0.920 1.476 2.015 2.571 3.365 4.032 4.773 … … … … … … … … 0.686 0.859 1.323 1.721 2.080 2.518 2.831 3.135 0.686 0.858 1.321 1.717 2.074 2.508 2.819 3.119 0.685 0.858 1.319 1.714 2.069 2.500 2.807 3.104 0.685 0.857 1.318 1.711 2.064 2.492 2.797 3.091 0.684 0.856 1.316 1.708 2.060 2.485 2.787 3.078 7.173 5.893 … 3.527 3.505 3.485 3.467 3.450 8.610 6.869 … 3.819 3.792 3.768 3.745 3.725
s X , X u s X
例4.1
• 随机抽取某地 25 名正常成年男子,测得 该样本的脉搏均数为 73.6 次 / 分,标准差
为6.5次/分,求该地正常成年男子脉搏总
体均数95%的可信区间。
附表2 t 界值表
自由度
-t
0
t
1 2 3 4 5 … 21 22 23 24 25
• 可信区间(CL, CU )是一开区间 CL、CU 称为
可信限
可信区间的两个要素
• 可信度(1-), 可靠性
– 一般取90%,95%。
–Hale Waihona Puke 可人为控制。• 精确性– 是指区间的大小(或长短)
• 兼顾可靠性、精确性
可信区间的确切涵义
• 可信度为95% 的可信区间的确切涵义是: 每100个样本所算得的100个可信区间, 平均有95个包含了总体参数 。
参数估计
• 由样本统计量估计总体参数
–点估计(point estimation) –区间估计(interval estimation)
点估计
• 直接用样本统计量作为总体参数的估计值
–方法简单,但未考虑抽样误差的大小 –在实际问题中,总体参数往往是未知的,但
它们是固定的值,并不是随机变量值。而样本
统计量随样本的不同而不同,属随机的。
区间估计
• 按一定的概率或可信度(1- )用一个区间 估计总体参数所在范围,这个范围称作可
信 度 为 1- 的 可 信 区 间 (confidence
interval, CI),又称置信区间 。这种估计
方法称为区间估计。
区间估计
• 预先给定的概率(1-α)称为可信度或者置信 度(confidence level),常取95%或99%。
影响可信区间大小的因素
• 可信度
– 可信度越大,区间越宽
• 个体变异
– 变异越大,区间越宽
• 样本含量
– 样本含量越大,区间越窄
• 当样本含量较大时,例如n>100,t分布 近似标准正态分布,此时可用标准正态
分布代替t分布,作为可信区间的近似计
算。相应的100(1-)%可信区间为:
•
X u