当前位置：文档之家› 正态分布、区间估计

正态分布、区间估计

p ± Zα / 2Sp = p ± Z0.05/ 2 p(1 p) n
0.783(1 0.783) = 0.783±1.96× 120 = 0.709 ~ 0.857
data aa; input p n; Sp=sqrt(p*(1-p)/n); y1=p-1.96*Sp; y2=p+1.96*Sp ; cards; 0.783 120 ; proc print; run; /*可信区间的下限*/ /* /*可信区间的上限*/ */
总体均数的区间估计（单侧）
σ未知但样本例数足够大（n＞50）时：未知但样本例数n足够大未知但样本例数足够大（＞）
通式：通式： > X Zα SX
< X + Zα SX
σ已知，按标准正态分布原理计算：已知，按标准正态分布原理计算：已知
通式：通式： > X Zασ X < X + Zασ X
p ( X tα / 2 , v S X < < X + tα / 2 , v S X ) = 1 α
通： ± tα / 2,vSX (双 ) 式 X 侧
95 双置区： t0.05/ 2,vSX , X + t0.05/ 2,vSX ) ％侧信间 (X
σ已知，按标准正态分布原理计算已知，已知
参数估计
参数估计：参数估计：由已知的样本统计量推断总体参数。参数。参数估计：点估计和区间估计；参数估计：点估计和区间估计；区间估计：区间估计：假设某个总体的均数为，假设某个总体的均数为，需要找到两个数值A和，使得在一个比较高的可信两个数值和B，使得在一个比较高的可信能包含。度下(如95%)，区间如，区间(A,B)能包含。即能包含 P(A<<B)=0.95
2 正态近似法
例5-8 用某种仪器检查已确诊的乳腺癌患者 120名，检出乳腺癌患者例，检出率为名检出乳腺癌患者94例 78.3%。估计该仪器乳腺癌总体检出率的。估计该仪器乳腺癌总体检出率的95% 置信区间。置信区间。比较大，均大于5，解: n比较大，且np = 94及n(1p) = 26均大于，比较大及均大于所以可用正态近似法估计总体概率的置信区间。所以可用正态近似法估计总体概率的置信区间。
某医院对39名前列腺癌患者实施开放例5-6 某医院对名前列腺癌患者实施开放手术治疗，术后有合并症者2人手术治疗，术后有合并症者人，试估计该手术合并症发生概率的95%置信区间。置信区间。术合并症发生概率的置信区间解：查附表6，n = 39，X=2，交叉处的数值为查附表，，， 1~17，即该手术合并症发生概率的，即该手术合并症发生概率的95%置信区置信区间为1% ~ 17%。间为。
X X t= = ~ t分布， ν = n 1 分布， sX s n
t分布曲线分布曲线
单峰分布，曲线以0为中心为中心，单峰分布，曲线以为中心，左右对称类似于标准正态分布。似于标准正态分布。 t分布的形状与自由度ν有关分布的形状与自由度
1-α
-tα/2,v
tα/2,v
双侧：双侧：P(t≤-tα/2,ν)+ P(t≥tα/2,ν)=α P(-tα/2,ν < t <tα/2,ν) = 1-α
名学生，例：随机抽取15名学生，记录他们的性别随机抽取名学生）、年龄）、体重（sex）、年龄（age）、体重（w）和身高）、年龄（）、体重（）），求学生身高的95%置信区间。置信区间。（h），求：学生身高的），置信区间 f m m m f 15 15 14 16 16 46 50 38 60 60 156 160 150 170 165 f m m f m 14 13 16 17 17 41 48 55 50 65 149 155 165 160 175 f m m f f 18 18 17 17 18 65 70 68 58 61 165 180 176 160 162
data a; input sex$ age w h @@; cards; f 15 46 156 f 14 41 149 m 15 50 160 m 13 48 155 m 14 38 150 m 16 55 165 m 16 60 170 f 17 50 160 F 16 60 165 m 17 65 175 ；
σ未知且样本例数较小时，按t分布原理计算未知且样本例数n较小时未知且样本例数较小时，分布原理计算
p ( tα / 2 , v < t < tα / 2 , v ) = 1 α p ( tα / 2 , v
a/2 -ta/2,v
a/2 ta/2,v
X < < tα / 2 , v ) = 1 α SX
σx =
σ
n
s sx = n
t分布分布
设从正态分布N( 中随机抽取含量为n的设从正态分布 ,σ2)中随机抽取含量为的中随机抽取含量为样本，设：样本，
X ~ N ( , σ ) → z =
2 X z变换
X
σX
~ N (0,1)
实际工作中，总体方差未知，实际工作中，总体方差未知，用样本方差代替，此时：代替，此时：
某医生用某药物治疗31例脑血管梗塞例5-7 某医生用某药物治疗例脑血管梗塞患者，其中25例患者治疗有效例患者治疗有效，患者，其中例患者治疗有效，试求该药物治疗脑血管梗塞有效概率的95%置信区间置治疗脑血管梗塞有效概率的置信区间置信区间。信区间。解：n = 31，X = 25 > n/2，所以用 X = 6查，，所以用n 查附表6，得8 ~38，即无效概率的95%置信区附表，，即无效概率的置信区间为8% ~38%，因此有效概率的间为，因此有效概率的95%置信置信区间为62% ~ 92%。区间为。
样本频率的抽样误差
随机变量 X ~ B（n,π）（样本频率
率的标准误
X p= n
总体均数参数为π，标准差为 σ = π (1 π )
p
n
Sp =
p(1 p) n
总体概率的置信区间
估计方法：估计方法：较小，查表法：当样本含量n较小比如n 查表法：当样本含量较小，比如 ≤ 50 正态近似法：足够大，正态近似法：当n足够大，且样本频率和（1p）足够大且样本频率p和）均不太小时，均不太小时，如np与n(1p) 均大于与均大于5
总体均数的可信区间(SAS实现) 总体均数的可信区间(SAS实现) (SAS实现
（1）t 分布法 SAS函数： SAS函数：TINV 函数 t=TINV(p,df) 求t分位数的函数，p 分位数的函数，是从- 到当前t分位数位置的面积。是从-∞到当前t分位数位置的面积。 df=n-1（自由度） df=n自由度）
p ( zα / 2 < z < zα / 2 ) = 1 α p ( zα / 2 < X
a/2 -za/2
a/2 za/2
σX
X
< zα / 2 ) = 1 α
p ( X z α / 2σ
< < X + z α / 2σ X ) = 1 α
通式：X ± Zα / 2σ X (双侧 )
实验三、未必等于总体均数; 各样本均数未必等于总体均数样本均数之间存在差异; 样本均数之间存在差异样本均数的分布很有规律：围绕总体均数，样本均数的分布很有规律：围绕总体均数，中间多两边少，左右基本对称；中间多两边少，左右基本对称；样本均数的变异范围较之原变量的变异范围大大缩小；随着样本含量的增加，样本围大大缩小；随着样本含量的增加，均数的变异范围逐渐缩小。均数的变异范围逐渐缩小。
作业
P83 6题 7题
6. 某研究表明新研制的一种安眠药比旧安眠药增加睡眠时间。眠时间。某医师从已确诊的神经衰弱病人中随机抽取了两份样本, 一份样本是20例病人服用该种新药例病人服用该种新药，两份样本一份样本是例病人服用该种新药，计算得到平均睡眠时间为6.39小时标准差为小时, 小时; 到平均睡眠时间为小时标准差为2.24小时另一小时份样本是93例病人也服用该种新药例病人也服用该种新药，份样本是例病人也服用该种新药，计算得到平均睡眠时间为6.45小时标准差为小时, 小时。眠时间为小时标准差为2.51小时。若睡眠时间服小时从正态分布，从正态分布，试分别估计这种新安眠药的平均睡眠时间置信区间；的95%置信区间；并比较这两个区间有何不同，用哪置信区间并比较这两个区间有何不同，一个估计总体参数更可靠？一个估计总体参数更可靠？ 7. 为了解中年男性高血压患病情况，某研究单位在某为了解中年男性高血压患病情况，市城区随机调查了45~54岁男性居民岁男性居民2660人，检查出市城区随机调查了岁男性居民人高血压病人775人，试估计该市中年男子高血压患病率高血压病人人置信区间。的95%置信区间。置信区间
某市2000年随机测量了90名19岁健康男大某市2000年随机测量了90名19岁健康男大 2000年随机测量了90 学生的身高，均数为172.2cm，标准差为学生的身高，均数为172.2cm， 172.2cm 4.5cm，试估计该市当年19岁健康男大学 4.5cm，试估计该市当年19岁健康男大学 19 生平均身高95%置信区间。生平均身高95%置信区间。 95%置信区间
Output语句注解语句注解
语句格式：语句格式： OUTPUT OUT=数据集名 [统计关键字变量统计关键字=变量数据集名统计关键字名] 功能：功能：将过程结果输出到一个新SAS数据集。数据集。将过程结果输出到一个新数据集

e商务文档

正态分布、区间估计

相关文档推荐：