当前位置:文档之家› 正态分布参考值抽样误差

正态分布参考值抽样误差

x
x
标准正态分布N(0,1)。在实际工作 中,往往是未知,常用 s X 替代 ,即 X
X
t
Sx
这时,对正态变量 X 采取的不 是u变换而是t变换了,t值的分布 称为t分布。
t分布的特征:
1.单峰分布,以0为中心,左右对称;
2.t 分布是一簇曲线,其形态变化与自由度 s X 与 X 的差别 的大小有关 n-1。越小, 越大,t值越分散,曲线的峰部越矮,尾部越 粗。越大,t分布越接近于标准正态分布。
X u / 2 s X
X 1.96S x
总体均数95%的双侧可信区间为:
总体均数99%的双侧可信区间为:
X 2.58S x
例 某市2000年随机测量了90名19岁健康男大 学生的身高,其均数为172.2cm,标准差为 4.5cm,试估计该市2000年19岁健康男大学生 平均身高的95%可信区间。
f(x)=(fi/n)
0.25
以频率为纵坐标
相 对 频 率
0.20
0.15
0.10
0.05
0.00
3.8
4
4.2 4.4 4.6 4.8
5
12
5.2 5.4 5.6 5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
随着组段不断分细和观察人数的增多,直条顶端将逐渐接近于 一条光滑的曲线,如下图。这条曲线称为频率密度曲线,呈中 间高、两边低、左右对称,形状似座钟。类似于数学上的正态 分布曲线。 因为频率的总和等于1,故横轴上曲线下的面积等于1。
例如:总体均数的可信区间
即按一定的概率估计未知总体均数的所在范 围。 习惯上用总体均数的95%(或99%)可信 区间,表示该区间包含总体均数的概率为 95%(或99%),用此范围估计总体平均数, 表示100次抽样中,有 95(99)次包含总体均 数。
总体均数可信区间的计算
(1)未知,但样本例数n足够大(如n ﹥50),总体均数的1-α双侧可信区间 为
因为红细胞数过高或过低均为异常,故按双侧 估计95%参考值 x 1.96s 5.38 1.96 0.44 (4.52,6.24) 1012 / L 故该地成年男子红细胞数的95%参考值范围为 4.52 1012-6.24 1012 / L
百分位数法: 适用于偏态分布资料
例如白细胞数的95%参考值范围:因为白细胞数 无论过高或过低均属异常,则分别计算P2.5和 P97.5,这是双侧95%参考值范围。
2.估计总体均数的可信区间; 3.用于均数的假设检验。
二、总体均数的可信区间估计
即用样本指标(统计量)估计总体指标(参数)
有两种常用方法: 点估计和区间估计
(一)点估计:样本均数( X )就是总体均数 的点估计值(μ) 该法简单,但未考虑抽样误差,而抽样误差 在抽样研究中是不可忽视的。
(二)区间估计: 结合样本统计量和标准误可以确定一个具有 一定可信度的包含总体参数的区间,该区间 称为总体参数的1-α可信区间(confidence interval,CI)
1.正态分布在横轴上方,均数处最高,以均数μ 为中心,左右对称。 2.正态分布的X取值范围理论上没有边界,X离μ 越远,f(X)值越接近0,但不会等于0。 3.正态分布曲线下的面积分布有一定的规律。 所有的正态分布曲 线,在μ左右任意 个标准差范围内面 积相同。
4.正态分布完全由两个参数即均数μ与标准差 σ决定,其中μ是位置参数,σ是变异参数。 常用N(μ,σ2 )来表示。
u
x

μ=0、σ=1的标准正态分布
标准正态分布曲线及其面积分布
三、正态分布的应用
– 不少医学现象服从正态分布或近似正态分布 确定医学参考值范围 质量控制图 – 正态分布是很多统计方法的理论基础
医学参考值范围的估计
1. 医学参考值范围的概念 指特定的“正常”人群的解剖、生理、生化指 标及组织代谢产物含量等数据中大多数个体的 取值所在的范围。 2. 医学参考值范围的确定要求
f1 X 1 f 2 X 2 ...... f m X m X f1 f 2 ...... f m 19000 172.73(cm) 110
fX f
110名20岁健康男大学生的身高均数为172.73cm。

已知Σf=110,ΣfX=19000,需要在该表中增加 fx2栏,由第(3)、(4)栏相乘,再将该栏数据相加, 将ΣfX2=3283646代入公式
百分范围 ( %) 单侧 下限 上限 下限 双侧 上限
95
99
P5
P1
P95
P99
P2.5
P0.5
P97.5
P99.5
例 某年某市调查了200例正常成人血铅含量 (μg/100g)如下,试估计该市成人血铅含量95 %医学参考值范围(用百分位数法计算)。
练习1:
调查某地120名健康女性血红蛋白,直方图 显示,其分布近似于正态分布,其血红蛋白 平均值为117.4(g/L),标准差为10.2 (g/L),试估计该地健康女性血红蛋白的 95%医学参考值范围。
本例n=90,可按正态分布近似法计算
X u / 2 s X 4 .5 172 .2 1.96 171 .3,173 .1cm 90
故该市2000年19岁健康男大学生平均身高 的95%可信区间为(171.3,173.1)cm。
t分布
前面讲过,通过u变换,可将正态 分布N(μ, 2)转换成标准正态分布 N(0,1)。同样,若从正态分布N(μ, 2)总体中随机抽样并算得多个样本 均数 X j ,它们仍服从总体均数为μ, 总体标准差为 x 的正态分布 2 N(μ, ),则 X 服从
频 数 35 30 25 20 15 10 5 0 169 170 171 172 173 174 175 176 177
40
100个样本均数频数分布直方图
样本均数的抽样分布具有以下特点: 1. 各样本均数未必等于总体均数;
2. 样本均数之间存在差异;
3. 样本均数的分布很有规律,围绕着总体 均数,中间多、两边少,左右基本对称, 也服从正态分布;
X1=173.22cm
s1=4.05cm
X 1 X 2 ...... X n X i X n n
S
X
2

X
n
2
n1
重复100次刚才的抽样,得到100个样本(每个样本 含量均为10个),可算得100个样本均数X。
各样本均数的均数X=172.66 cm
μ=1Байду номын сангаас2.73cm
5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
5.30 5.50 5.70 5.90
13 4 2 1
9.3 2.9 1.4 0.7
频 数 30 25 20 15 10 5 0 3.8 4 4.2 4.4 4.6 4.8 5
12
35
直方图
5.2
5.4
5.6
5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
S
19000 3283646
110 110 1
2
4.09(cm)
110名20岁男大学生的平均身高X=172.73cm,标准差s=4.09cm。
假设该110个身高数值作为假设的有限总体,即: μ=172.73cm, σ=4.09cm
现在从该总体 中随机抽10个 学生身高为1号 样本。 计算得:
一般情况下未知,常用 S X 估计抽样误差的大小,也即 X 的估 计值。
例:已知 s=6.85, n=100 则样本均数的抽样误差 S X 为多 少?
S SX 0.685 n
标准误的应用 1.反映样本均数的可靠性;
标准误反映抽样误差的大小。标准误大,表 示抽样误差大,则样本均数估计总体均数的可靠性 差。反之,标准误小,抽样误差小,样本均数估计 总体均数的可靠性好。
血红蛋白过高、过低均为异常,应按双侧计算:
x 1.96s 117.4 1.96 10.2 (97.41,137.39) g / L 故该地健康女性血红蛋白的95%参考值范围为 97.41-137.39 g / L
数值变量的参数估计 一、均数的抽样分布与抽样误差

抽样研究的目的就是要用样本信息来推断 总体特征。由于存在个体变异,样本均数 (X)往往不等于总体均数(),因此抽 样后各个样本均数也往往不等于总体均数, 且各个样本均数间也不一定都相等。这种 由抽样造成的样本均数与总体均数的差异 或各样本均数之间的差异称为抽样误差, 抽样误差是不可避免的。
样本均数 X :N(μ, )
2
x
均数的标准误及计算
反映均数抽样误差大小的指标是样本 均数 X 的标准差简称标准误(理论值), 用 X 表示,或SE、SEM。 4.09 x 1.29(cm)
n 10
由于在实际抽样研究中 往往未知,通 常用某一样本标准差 s 来替代 ,得标准误 的估计值 s X (通常也简称为标准误),其计 算公式为: s s
X
n
均数的标准误及计算
以1号样本 X 1 =173.22cm,s1=4.05cm为例:
s 4.05 sX 1.28(cm) n 10
例 2000年某研究者随机调查某地健康成年男 子27人,得到血红蛋白量的均数为125g/L, 标准差为15g/L。试估计该样本均数的抽样误 差。 将X=125g/L,s= 15g/L,n=27代入 S 15 SX 2.89 g / L n 27
正态分布
Normal distribution
正态分布和医学参考值范围
例 某地用随机抽样方法检查了140名成年男子的红 细胞数,检测结果如表2-1
相关主题