正态分布、区间估计
p ± Zα / 2Sp = p ± Z0.05/ 2 p(1 p) n
0.783(1 0.783) = 0.783±1.96× 120 = 0.709 ~ 0.857
data aa; input p n; Sp=sqrt(p*(1-p)/n); y1=p-1.96*Sp; y2=p+1.96*Sp ; cards; 0.783 120 ; proc print; run; /*可信区间的下限*/ /* /*可信区间的上限*/ */
总体均数的区间估计(单侧)
σ未知但样本例数 足够大(n>50)时: 未知但样本例数n足够大 未知但样本例数 足够大( > )
通式: 通式: > X Zα SX
< X + Zα SX
σ已知,按标准正态分布原理计算: 已知,按标准正态分布原理计算: 已知
通式: 通式: > X Zασ X < X + Zασ X
p ( X tα / 2 , v S X < < X + tα / 2 , v S X ) = 1 α
通 : ± tα / 2,vSX (双 ) 式 X 侧
95 双 置 区 : t0.05/ 2,vSX , X + t0.05/ 2,vSX ) % 侧 信 间 (X
σ已知,按标准正态分布原理计算 已知, 已知
参数估计
参数估计: 参数估计:由已知的样本统计量推断总体 参数。 参数。 参数估计:点估计和区间估计; 参数估计:点估计和区间估计; 区间估计: 区间估计: 假设某个总体的均数为, 假设某个总体的均数为 ,需要找到 两个数值A和 ,使得在一个比较高的可信 两个数值 和B,使得在一个比较高的可信 能包含。 度下(如95%),区间 如 ,区间(A,B)能包含 。即 能包含 P(A<<B)=0.95
2 正态近似法
例5-8 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者 例,检出率为 名 检出乳腺癌患者94例 78.3%。估计该仪器乳腺癌总体检出率的 。估计该仪器乳腺癌总体检出率的95% 置信区间。 置信区间。 比较大, 均大于5, 解: n比较大,且np = 94及n(1p) = 26均大于 , 比较大 及 均大于 所以可用正态近似法估计总体概率的置信区间。 所以可用正态近似法估计总体概率的置信区间。
某医院对39名前列腺癌患者实施开放 例5-6 某医院对 名前列腺癌患者实施开放 手术治疗,术后有合并症者2人 手术治疗,术后有合并症者 人,试估计该手 术合并症发生概率的95%置信区间。 置信区间。 术合并症发生概率的 置信区间 解:查附表6,n = 39,X=2,交叉处的数值为 查附表 , , , 1~17,即该手术合并症发生概率的 ,即该手术合并症发生概率的95%置信区 置信区 间为1% ~ 17%。 间为 。
X X t= = ~ t分布, ν = n 1 分布, sX s n
t分布曲线 分布曲线
单峰分布,曲线以0为中心 为中心, 单峰分布,曲线以 为中心,左右对称类 似于标准正态分布。 似于标准正态分布。 t分布的形状与自由度ν有关 分布的形状与自由度
1-α
-tα/2,v
tα/2,v
双侧: 双侧:P(t≤-tα/2,ν)+ P(t≥tα/2,ν)=α P(-tα/2,ν < t <tα/2,ν) = 1-α
名学生, 例:随机抽取15名学生,记录他们的性别 随机抽取 名学生 )、年龄 )、体重 (sex)、年龄(age)、体重(w)和身高 )、年龄( )、体重( ) ),求 学生身高的95%置信区间。 置信区间。 (h),求:学生身高的 ), 置信区间 f m m m f 15 15 14 16 16 46 50 38 60 60 156 160 150 170 165 f m m f m 14 13 16 17 17 41 48 55 50 65 149 155 165 160 175 f m m f f 18 18 17 17 18 65 70 68 58 61 165 180 176 160 162
data a; input sex$ age w h @@; cards; f 15 46 156 f 14 41 149 m 15 50 160 m 13 48 155 m 14 38 150 m 16 55 165 m 16 60 170 f 17 50 160 F 16 60 165 m 17 65 175 ;
σ未知且样本例数 较小时,按t分布原理计算 未知且样本例数n较小时 未知且样本例数 较小时, 分布原理计算
p ( tα / 2 , v < t < tα / 2 , v ) = 1 α p ( tα / 2 , v
a/2 -ta/2,v
a/2 ta/2,v
X < < tα / 2 , v ) = 1 α SX
σx =
σ
n
s sx = n
t分布 分布
设从正态分布N( 中随机抽取含量为n的 设从正态分布 ,σ2)中随机抽取含量为 的 中随机抽取含量为 样本,设: 样本,
X ~ N ( , σ ) → z =
2 X z变换
X
σX
~ N (0,1)
实际工作中,总体方差未知, 实际工作中,总体方差未知,用样本方差 代替,此时: 代替,此时:
某医生用某药物治疗31例脑血管梗塞 例5-7 某医生用某药物治疗 例脑血管梗塞 患者,其中25例患者治疗有效 例患者治疗有效, 患者,其中 例患者治疗有效,试求该药物 治疗脑血管梗塞有效概率的95%置信区间置 治疗脑血管梗塞有效概率的 置信区间置 信区间。 信区间。 解:n = 31,X = 25 > n/2,所以用 X = 6查 , ,所以用n 查 附表6,得8 ~38,即无效概率的95%置信区 附表 , ,即无效概率的 置信区 间为8% ~38%,因此有效概率的 间为 ,因此有效概率的95%置信 置信 区间为62% ~ 92%。 区间为 。
样本频率的抽样误差
随机变量 X ~ B(n,π) ( 样本频率
率的标准误
X p= n
总体均数参数为π, 标准差为 σ = π (1 π )
p
n
Sp =
p(1 p) n
总体概率的置信区间
估计方法: 估计方法: 较小, 查表法:当样本含量n较小 比如n 查表法:当样本含量 较小,比如 ≤ 50 正态近似法: 足够大, 正态近似法: 当n足够大,且样本频率 和(1p) 足够大 且样本频率p和 ) 均不太小时, 均不太小时,如np与n(1p) 均大于 与 均大于5
总体均数的可信区间(SAS实现) 总体均数的可信区间(SAS实现) (SAS实现
(1)t 分布法 SAS函数: SAS函数:TINV 函数 t=TINV(p,df) 求t分位数的函数,p 分位数的函数, 是从- 到当前t分位数位置的面积。 是从-∞到当前t分位数位置的面积。 df=n-1(自由度) df=n自由度)
p ( zα / 2 < z < zα / 2 ) = 1 α p ( zα / 2 < X
a/2 -za/2
a/2 za/2
σX
X
< zα / 2 ) = 1 α
p ( X z α / 2σ
< < X + z α / 2σ X ) = 1 α
通式:X ± Zα / 2σ X (双侧 )
实验三、 未必等于总体均数; 各样本均数未必等于总体均数 样本均数之间存在差异; 样本均数之间存在差异 样本均数的分布很有规律:围绕总体均数, 样本均数的分布很有规律:围绕总体均数, 中间多两边少,左右基本对称; 中间多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范 围大大缩小;随着样本含量的增加,样本 围大大缩小;随着样本含量的增加, 均数的变异范围逐渐缩小。 均数的变异范围逐渐缩小。
作业
P83 6题 7题
6. 某研究表明新研制的一种安眠药比旧安眠药增加睡 眠时间。 眠时间。某医师从已确诊的神经衰弱病人中随机抽取了 两份样本, 一份样本是20例病人服用该种新药 例病人服用该种新药, 两份样本 一份样本是 例病人服用该种新药,计算得 到平均睡眠时间为6.39小时 标准差为 小时, 小时; 到平均睡眠时间为 小时 标准差为2.24小时 另一 小时 份样本是93例病人也服用该种新药 例病人也服用该种新药, 份样本是 例病人也服用该种新药,计算得到平均睡 眠时间为6.45小时 标准差为 小时, 小时。 眠时间为 小时 标准差为2.51小时。若睡眠时间服 小时 从正态分布, 从正态分布,试分别估计这种新安眠药的平均睡眠时间 置信区间; 的95%置信区间;并比较这两个区间有何不同,用哪 置信区间 并比较这两个区间有何不同, 一个估计总体参数更可靠? 一个估计总体参数更可靠? 7. 为了解中年男性高血压患病情况,某研究单位在某 为了解中年男性高血压患病情况, 市城区随机调查了45~54岁男性居民 岁男性居民2660人,检查出 市城区随机调查了 岁男性居民 人 高血压病人775人,试估计该市中年男子高血压患病率 高血压病人 人 置信区间。 的95%置信区间。 置信区间
某市2000年随机测量了90名19岁健康男大 某市2000年随机测量了90名19岁健康男大 2000年随机测量了90 学生的身高,均数为172.2cm,标准差为 学生的身高,均数为172.2cm, 172.2cm 4.5cm,试估计该市当年19岁健康男大学 4.5cm,试估计该市当年19岁健康男大学 19 生平均身高95%置信区间。 生平均身高95%置信区间。 95%置信区间
Output语句注解 语句注解
语句格式: 语句格式: OUTPUT OUT=数据集名 [统计关键字 变量 统计关键字=变量 数据集名 统计关键字 名] 功能: 功能: 将过程结果输出到一个新SAS数据集。 数据集。 将过程结果输出到一个新 数据集