当前位置：文档之家› 正态分布参考值抽样误差

正态分布参考值抽样误差

x
x
标准正态分布N(0，1)。在实际工作中，往往是未知，常用 s X 替代，即 X
X
t
Sx
这时，对正态变量 X 采取的不是u变换而是t变换了，t值的分布称为t分布。
t分布的特征：
1.单峰分布，以0为中心，左右对称；
2.t 分布是一簇曲线，其形态变化与自由度 s X 与 X 的差别的大小有关 n-1。越小，越大，t值越分散，曲线的峰部越矮，尾部越粗。越大，t分布越接近于标准正态分布。
X u / 2 s X
X 1.96S x
总体均数95%的双侧可信区间为：
总体均数99%的双侧可信区间为：
X 2.58S x
例某市2000年随机测量了90名19岁健康男大学生的身高，其均数为172.2cm，标准差为 4.5cm，试估计该市2000年19岁健康男大学生平均身高的95％可信区间。
f(x)=(fi/n)
0.25
以频率为纵坐标
相对频率
0.20
0.15
0.10
0.05
0.00
3.8
4
4.2 4.4 4.6 4.8
5
12
5.2 5.4 5.6 5.8
红细胞计数（10 /L) 140名正常男子红细胞计数直方图
随着组段不断分细和观察人数的增多，直条顶端将逐渐接近于一条光滑的曲线，如下图。这条曲线称为频率密度曲线，呈中间高、两边低、左右对称，形状似座钟。类似于数学上的正态分布曲线。因为频率的总和等于1，故横轴上曲线下的面积等于1。
例如：总体均数的可信区间
即按一定的概率估计未知总体均数的所在范围。习惯上用总体均数的95%(或99%)可信区间，表示该区间包含总体均数的概率为 95%(或99%)，用此范围估计总体平均数，表示100次抽样中，有 95(99)次包含总体均数。
总体均数可信区间的计算
（1）未知，但样本例数n足够大（如n ﹥50），总体均数的1－α双侧可信区间为
因为红细胞数过高或过低均为异常，故按双侧估计95%参考值 x 1.96s 5.38 1.96 0.44 (4.52,6.24) 1012 / L 故该地成年男子红细胞数的95%参考值范围为 4.52 1012－6.24 1012 / L
百分位数法: 适用于偏态分布资料
例如白细胞数的95％参考值范围:因为白细胞数无论过高或过低均属异常，则分别计算P2.5和 P97.5，这是双侧95％参考值范围。
2.估计总体均数的可信区间； 3.用于均数的假设检验。
二、总体均数的可信区间估计
即用样本指标（统计量）估计总体指标（参数）
有两种常用方法：点估计和区间估计
（一）点估计：样本均数（ X ）就是总体均数的点估计值（μ）该法简单，但未考虑抽样误差，而抽样误差在抽样研究中是不可忽视的。
（二）区间估计：结合样本统计量和标准误可以确定一个具有一定可信度的包含总体参数的区间，该区间称为总体参数的1－α可信区间（confidence interval,CI）
1.正态分布在横轴上方，均数处最高，以均数μ 为中心，左右对称。 2.正态分布的X取值范围理论上没有边界，X离μ 越远，f(X)值越接近0，但不会等于0。 3.正态分布曲线下的面积分布有一定的规律。所有的正态分布曲线，在μ左右任意个标准差范围内面积相同。
4.正态分布完全由两个参数即均数μ与标准差 σ决定，其中μ是位置参数，σ是变异参数。常用N(μ,σ2 )来表示。
u
x

μ＝0、σ＝1的标准正态分布
标准正态分布曲线及其面积分布
三、正态分布的应用
– 不少医学现象服从正态分布或近似正态分布确定医学参考值范围质量控制图 – 正态分布是很多统计方法的理论基础
医学参考值范围的估计
1. 医学参考值范围的概念指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。 2. 医学参考值范围的确定要求
f1 X 1 f 2 X 2 ...... f m X m X f1 f 2 ...... f m 19000 172.73(cm) 110
fX f
110名20岁健康男大学生的身高均数为172.73cm。

已知Σf＝110，ΣfX＝19000，需要在该表中增加 fx2栏，由第(3)、(4)栏相乘，再将该栏数据相加，将ΣfX2＝3283646代入公式
百分范围（ %）单侧下限上限下限双侧上限
95
99
P5
P1
P95
P99
P2.5
P0.5
P97.5
P99.5
例某年某市调查了200例正常成人血铅含量（μg/100g）如下，试估计该市成人血铅含量95 ％医学参考值范围（用百分位数法计算）。
练习1：
调查某地120名健康女性血红蛋白，直方图显示，其分布近似于正态分布，其血红蛋白平均值为117.4（g/L），标准差为10.2 （g/L），试估计该地健康女性血红蛋白的 95％医学参考值范围。
本例n＝90，可按正态分布近似法计算
X u / 2 s X 4 .5 172 .2 1.96 171 .3,173 .1cm 90
故该市2000年19岁健康男大学生平均身高的95％可信区间为（171.3，173.1）cm。
t分布
前面讲过，通过u变换，可将正态分布N(μ, 2)转换成标准正态分布 N(0，1)。同样，若从正态分布N(μ, 2)总体中随机抽样并算得多个样本均数 X j ,它们仍服从总体均数为μ，总体标准差为 x 的正态分布 2 N(μ, )，则 X 服从
频数 35 30 25 20 15 10 5 0 169 170 171 172 173 174 175 176 177
40
100个样本均数频数分布直方图
样本均数的抽样分布具有以下特点： 1. 各样本均数未必等于总体均数；
2. 样本均数之间存在差异；
3. 样本均数的分布很有规律，围绕着总体均数，中间多、两边少，左右基本对称，也服从正态分布；
X1=173.22cm
s1=4.05cm
X 1 X 2 ...... X n X i X n n
S
X
2

X
n
2
n1
重复100次刚才的抽样，得到100个样本（每个样本含量均为10个），可算得100个样本均数X。
各样本均数的均数X＝172.66 cm
μ＝1Байду номын сангаас2.73cm
5.20 ～ 5.40 ～ 5.60 ～ 5.80～6.00
5.30 5.50 5.70 5.90
13 4 2 1
9.3 2.9 1.4 0.7
频数 30 25 20 15 10 5 0 3.8 4 4.2 4.4 4.6 4.8 5
12
35
直方图
5.2
5.4
5.6
5.8
红细胞计数（10 /L) 140名正常男子红细胞计数直方图
S
19000 3283646
110 110 1
2
4.09(cm)
110名20岁男大学生的平均身高X＝172.73cm，标准差s＝4.09cm。
假设该110个身高数值作为假设的有限总体，即： μ＝172.73cm， σ＝4.09cm
现在从该总体中随机抽10个学生身高为1号样本。计算得：
一般情况下未知，常用 S X 估计抽样误差的大小,也即 X 的估计值。
例：已知 s＝6.85， n＝100 则样本均数的抽样误差 S X 为多少？
S SX 0.685 n
标准误的应用 1.反映样本均数的可靠性；
标准误反映抽样误差的大小。标准误大，表示抽样误差大，则样本均数估计总体均数的可靠性差。反之，标准误小，抽样误差小，样本均数估计总体均数的可靠性好。
血红蛋白过高、过低均为异常，应按双侧计算：
x 1.96s 117.4 1.96 10.2 (97.41,137.39) g / L 故该地健康女性血红蛋白的95%参考值范围为 97.41－137.39 g / L
数值变量的参数估计一、均数的抽样分布与抽样误差

抽样研究的目的就是要用样本信息来推断总体特征。由于存在个体变异，样本均数（X）往往不等于总体均数（），因此抽样后各个样本均数也往往不等于总体均数，且各个样本均数间也不一定都相等。这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差，抽样误差是不可避免的。
样本均数 X ：N(μ, )
2
x
均数的标准误及计算
反映均数抽样误差大小的指标是样本均数 X 的标准差简称标准误（理论值），用 X 表示，或SE、SEM。 4.09 x 1.29(cm)
n 10
由于在实际抽样研究中往往未知，通常用某一样本标准差 s 来替代，得标准误的估计值 s X (通常也简称为标准误)，其计算公式为： s s
X
n
均数的标准误及计算
以1号样本 X 1 =173.22cm，s1=4.05cm为例：
s 4.05 sX 1.28(cm) n 10
例 2000年某研究者随机调查某地健康成年男子27人，得到血红蛋白量的均数为125g/L，标准差为15g/L。试估计该样本均数的抽样误差。将X=125g/L,s= 15g/L，n=27代入 S 15 SX 2.89 g / L n 27
正态分布
Normal distribution
正态分布和医学参考值范围
例某地用随机抽样方法检查了140名成年男子的红细胞数，检测结果如表2－1

e商务文档

正态分布参考值抽样误差

相关文档推荐：