当前位置:文档之家› 2.正态分布及抽样误差

2.正态分布及抽样误差


正态分布的应用
估计频数分布 质量控制 确定临床参考值范围
估计频数分布
某项目研究婴儿的出生体重服从正态分布,其 均数为3150g,标准差为350g。若以2500g作 为低体重儿,试估计低体重儿的比例。 首先计算标准离差: 2500 3150 u 1.86 350


从已知总体中抽样
μ =0 σ =1
x =0.3747
S= 1.2473
x =0.0681
S =0.7245
样本含量n =10 抽样次数m =10000
x =-0.1703
S = 0.9248
Sampling distribution for means
X Population A Population B X Population C X Population D X
抽样误差及其规律性
Sampling variability and its attributes
了解抽样误差规律的重要性
总体
同质个体、个体变异
随机 抽样
样本
代表性、抽样误差
总体参数
未知
统计 推断
样本统计量已

风 险
抽样误差(sampling error)



由抽样引起的样本统计量与总体参数间 的差别。 原因:个体变异+抽样 表现: 样本统计量与总体参数间的差别 不同样本统计量间的差别 抽样误差是有规律的!
均数标准误的计算
例:某市16岁女中学生的身高均数(μ)为 155.4cm,标准差(σ)为5.3cm n=10
X 5.3 / 10 1.68(cm)
与样本含量的关系
n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄; 对称分布接近正态分布的速度,大于非 对称分布。分布越偏,接近正态分布所 需样本含量就越大。
M+3SD
M+2SD
M
M-2SD
M-3SD
1
2
3
4
5
6
7
8 9 测量
10 11 12 13 14 15

27
参考值范围(reference interval)
参考值范围又称正常值范围(normal range)。 什么是参考值范围: 是绝大多数正常人的某观察指标所在的范围。 绝大多数:90%,95%,99%等等。 确定参考值范围的意义: 用于判断正常与异常。 “正常人”的定义: 排除了影响所研究的指标的疾病和有关因素 的同质的人群。
均数的抽样误差之特点
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律,围绕总体均 数,中间多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异 范围大大缩小; 随着样本含量的增加,样本均数的变异 范围逐渐缩小。
中心极限定理(central limit theorem)

+1.64
正态曲线下的面积规律
99%
0.5%
0.5%
-2.58

+2.58
思考
S(-1.96, +1.64)=?
92.5%
正态曲线下的面积规律
正态曲线下面积总和为1; 正态曲线关于均数对称;对称的区域内面积相等; 对任意正态曲线,按标准差为单位,对应的面积相等; -1.64~ +1.64内面积为90%; -1.96~ +1.96内面积为95%; -2.58~ +2.58内面积为99%。 小于-3的面积为 0.13%; 小于-2的面积为 2.28%; 小于- 的面积为15.87%。
参考值范围的估计方法
方法 正态分布法 双侧 单侧下限 单侧上限
X u / 2 s
X u s
X u s

20 ~ 29岁正常成年男子尿酸浓度
x 350.24( mol / L), s 32.97
求双侧95%的参考值范围: 下限
x 1.96 s 350.24 32.97 285.62( mol / L) x 1.96s 350.24 32.97 414.86( mol / L)
标准正态分布
标准正态分布(standard normal distribution)是均数为0, 标准差为1的正态分布。 记为N(0,1)。 标准正态分布是一条曲线。 概率密度函数:
(X )
1 2
e
u2 2
(-∞< u <+∞)
正态分布转换为标准正态分布
若 X~N(,2),作变换:
S(-,-X)
S(X,)=S(-,-X)

正态曲线下的面积规律
对称区域面积相等。
S(-x1, -x2)
S(x1,x2)=S(-x2,-x1)
-x1 -x2

x2 x1
正态曲线下的面积规律
S(-, )=0.5 S(-, +1)=0.8413 S(-, +2)=0.9772 S(-, +3)=0.9987 S(-, )=1
S(-, -1)=0.1587
S(-, -0)=0.5
S(-1,
)=0.3413
-3
-2 -

+ +2 +3
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
95%
2.5%
2.5%
-1.96

+1.96
正态曲线下的面积规律
90%
5%
5%
-1.64
参考值范围确定的原则
选定同质的正常人作为研究对象 控制检测误差 判断是否分组(性别,年龄组) 选择百分界值(90%,95%) 确定可疑范围 单、双侧问题
单侧与双侧参考值范围
根据医学专业知识确定! 双侧:白细胞计数,血清总胆固醇, 单侧:上限: 转氨酶,尿铅,发汞 …… 下限: 肺活量,IQ,
正态分布及其应用
Normal distribution
and its applications
统计学中最重要的理论分布之一
正态分布(Normal distribution)

法国概率论学者狄莫弗 德国数学家Gauss 最早用于物理学、天文学 Gaussian distribution
2
正态分布的背景-一个街头赌博游戏
样本均数的均数为 μ;
样本均数的标准差为 x

n

标准误(standard error)
样本统计量的标准差称为标准误。
样本均数的标准差称为均数的标准误。 均数的标准误表示样本均数的变异度。
x
sx

s
n
n
当总体标准差未知时,用样本方差代替,
前者称为理论标准误,后者称为样本标准误。
3
1
ห้องสมุดไป่ตู้
2
均数相等、方差不等的正态分布图示
2 1
3
正态分布的特征
正态分布有两个参数(parameter),即位 置参数(均数)和形态参数(标准差)。 高峰在均数处; 均数两侧完全对称。 正态曲线下的面积分布有一定的规律。
正态曲线下的面积规律
X轴与正态曲线所夹面积恒等于1 。 对称区域面积相等。
u
X

~ N (0,1)
则u服从标准正态分布。 u称为标准正态离差(standard normal deviate)
标准正态分布曲线下面积(u)
u
-3.0 -2.5 -2.0 0.00 0.02 0.04 0.06 0.08 0.0013 0.0013 0.0012 0.0011 0.0010 0.0062 0.0059 0.0055 0.0052 0.0049 0.0228 0.0217 0.0207 0.0197 0.0188
X
n=2
X
n=4
X
n=10
X
n=25
Sampling Distribution of sample means Sampling Distribution of sample means Sampling Distribution of sample means Sampling Distribution of sample means
1-S(- , +)=0.3174
-3 -2 - + +2 +3
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
S(-, -3)=0.0013
S(-, -2)=0.0228
S(-3, -2)=0.0215
S(-2, -1)=0.1359
标准误与标准差(1)
联系:
都表示变异的大小;
SX S / n
样本含量一定时,标准差越大,标准误越 大。
标准误与标准差(2)
标准差 含义: 一组变量值离散程度; 标准差越小,均数的代表性越好; 应用: 估计参考值范围; 与n的关系:样本含量越大,标准差越稳定,n 很 大时,标准差趋向于总体标准差。
+ +2 +3
S(-, -1)=0.1587 S(-, -2)=0.0228
S(-, -3)=0.0013
-3 -2 -
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
1-S(-3 , +3)=0.0026
1-S(-2 , +2)=0.0456
相关主题