统计学 正态分布
正态分布曲线的数学函数表达式: 如果随机变量 的分布服从概率密度函数:
( X − µ)2 1 , − ∞ < X < ∞ f (X ) = exp − 2 2σ σ 2π π= .14159, 是以 .72818为底的自然对数指数 3 exp 2 X ~ N(µ,σ 2 ), µ为X的总体均数,σ为总体标准差 f ( X )称为概率密度函数(probabilit y density function ) 以f ( X )为纵坐标,X为横坐标,绘制的曲线就是 正态曲线(norm curve ) al
为伽玛函数; 圆周率; 式中 Γ(•)为伽玛函数; 圆周率; V 为 自由度( freedom), ),是 自由度(degree of freedom),是t分布的 唯一参数; 为随机变量。 唯一参数;t为随机变量。 为纵轴, 以t (•)为横轴,f(t)为纵轴,可绘制t分布 Γ 为横轴, 曲线。 曲线。
查t 界值表
举例: 举例:
, α t ①ν =10 单 =0.05, 0.05,10 =1.812 ,则有
P(t ≤ −1.812) = 0.05 或 P(t ≥1.812) = 0.05
, α t ②ν =10 双 =0.05, 0.05/2,10 = 2.228 ,则有
P(t ≤ −2.228) + P(t ≥ 2.228) = 0.05
(正态分布是对称分布,但对称分布不一定是正态分布) 正态分布是对称分布,但对称分布不一定是正态分布) 2. 实 际 频 数 分 布 : 中 间 频 数 多 , 两 端 越 来 越少, 越少,且左右大致对称 理论频数分布:正态分布曲线。 理论频数分布:正态分布曲线。
4 频数分布逐渐接近正态分布示意
设想当原始数据的频数分布图的观察数 逐渐增加且组段不断分细时, 逐渐增加且组段不断分细时 , 图中的直条 就不断变窄, 就不断变窄 , 其顶端则逐渐接近于一条光 滑的曲线。 这条曲线形态呈钟形 , 两头低、 滑的曲线 。 这条曲线形态呈 钟形, 两头低 、 中间高, 左右对称 , 中间高 , 左右对称, 近似于数学上的正态 分布。 在处理资料时 , 分布 。 在处理资料时, 我们就把它看成是 正态分布。 正态分布。
e
− X2
2
dX
-4
-3
-2
-1
0 X
1
2
3
4
1 F( X ) = σ 2π
∫
X
−( X −µ)2
−∞
e
(2σ 2 )
dX
态 布 正 分 μ ±σ μ ±1.96σ ± σ ±2.58σ μ ± σ
积 概 面 或 率 68.27% 95.00% 99.00%
二、正态分布的应用
1、估计医学参考值范围 2、质量控制 3、正态分布是许多统计方法的理 论基础
随机变量X
u=
X −µ
N (µ,σ2)
均数 X
u变换
X −µ u= σ n
σ
标准正态分布 N(0,12) 标准正态分布 N(0,12) Student t分布 自由度: 自由度:n-1
N(µ,σ n)
2
X −µ X −µ t= = , v = n −1 SX S n
t分布的概率密度函数
Γ[(ν +1) 2] 2 −(ν +1) 2 f (t) = (1+ t /ν ) πνΓ(ν 2)
适用:正态分布资料 适用:正态分布资料
2. 百分位数法
双侧95%参考值范围: P2.5~P97.5 参考值范围: 双侧 参考值范围 单侧95%参考值范围: < P95(上限) 单侧 参考值范围: 上限) 参考值范围 下限) 或 > P5(下限) 适用于偏态分布资料
第三节 t 分布
t 分布
第3章 正态分布
1 正态分布概念
正态分布( distribution) 正态分布(normal distribution)也叫高斯 分布( distribution),一种最常见、 ),一种最常见 分布(Gaussian distribution),一种最常见、 最重要的连续型对称分布。 最重要的连续型对称分布。
σ
u2 1 f (u) = exp − , − ∞ < X < ∞ 2 2π
一般正态分布为一个分布族:N(µ,σ2) ;标准正 态分布只有一个 N(0,1) ;这样简化了应用
四、曲线下面积
0.5
f(X)
0.4
-∞
u 0.3
0.2 0.1 0.0
Φ(u) =
1 2π
∫
u
−∞
t
t分布曲线下面积(附表)
双侧t0.05/2,9=2.262 0.05/2, =单侧t0.025,9 0.025, 单侧t0.05,9=1.833 0.05, 双侧t0.01/2,9=3.250 0.01/2, =单侧t0.005,9 0.005, 单侧t0.01,9=2.821 0.01, 双侧t0.05/2,∞=1.96 0.05/2, =单侧t0.025,∞ 0.025, 单侧t0.05,∞ =1.64 0.05,
0.6
f (X )
N(−1,0.8 )
2
0.5 0.4 0.3 0.2 0.1 0
N(0,1 )
N(1,1.2 )
2
2
-4
-3
-2
-1
0
1
2
3
4
X
100%; ① X 轴与正态曲线所夹面积恒等于 1 或 100%; 68.27%; ② 区间 µ ±σ 的面积为 68.27%; ③ 区间 µ ±1.96σ 的面积为 95.00%; 95.00%; 99.00%。 ④ 区间 µ ± 2.58σ 的面积为 99.00%。
异常 双侧上限
单侧下限---过低异常 单侧下限 过低异常
异常
正常 单侧下限
正常
异常
异常
正常
单侧上限
双侧下限
1. 正态分布法
方法: 方法: 1. 正态分布法 2. 百分位数法
双侧1-α参考值范围: 双侧 参考值范围: 参考值范围 单侧1-α参考值范围: 参考值范围 单侧 参考值范围:
X ± uα / 2S < X + uα S (上 ) 限 > X −uα S ( 限 下 )
f(X)
µ
X
态 布 正 分 μ ±σ ±1.96σ μ ± σ ±2.58σ μ ± σ
积 概 面 或 率 68.27% 95.00% 99.00%
三、标准正态分布
标准正态分布 (standard normal distribution)的两个 参数为:µ=0,σ=1 记为 N(0,1)
经 准 态 量 变 : 般 态 布 (µ,σ 2 )被 化 标 正 变 u 换 一 正 分 N 转 为 标 正 分 N(0,1); 其 u = 准 态 布 中 X −µ
医学参考值范围涉及到采用单侧 界值还是双侧界值的问题,这通常依 据医学专业知识而定。
双侧 : 血清总胆固醇无论过低或过高均属异常 白细胞数无论过低或过高均属异常 单侧 : 1、血清转氨酶仅过高异常 2、肺活量仅过低异常
医学参考值范围有 90%、 95%、99%、 90%、 95%、99%、 等, 最常用的为 95% 。 计算医学参考值范围的常用方法: 1、正态分布法 2、百分位数法
2、正态曲线特点 、正态曲线特点
f(X)
钟型 中间高 两头低 左右对称 最高处对应于X 最高处对应于 轴的值就是均数 6. 曲线下面积为 曲线下面积为1 7. 标准差决定曲线 的形状 1. 2. 3. 4. 5.
µ
X
normal curve
位置参数µ决定曲线的位置,形态参数 决定曲线的形态 决定曲线的位置, 决定曲线的位置 形态参数σ决定曲线的形态
双侧95%正常值范围: X ±1.96S 正常值范围: 双侧 正常值范围 单侧95%正常值范围: < X +1.64S (上限) 正常值范围: 单侧 正常值范围
> X −1.64S (下限)
例 2-14
对例 2-1,例 2-3 和例 2-13 已计算出101 名正常成年女
子的血清总胆固醇均数 X = 4.06 mmol/L ,标准差 S = 0.654 mmol/L 。试估 计该单位正常女子血清总胆固醇在 4.00 mmol/L 以下者及5.00 mmol/L 以 下者各占正常女子总人数的百分比。
医学参考值范围
临床上常用的参考值是指包括绝大多数正常人的人 体形态、机能和代谢产物等各种生理及生化指标,过去 称正常值。
步骤: 1. 2. 3. 4. 从“正常人”总体中抽样:明确研究总体 统一测定方法以控制系统误差。 判断是否需要分组(如性别、年龄)确定。 根据专业知识决定单侧还是双侧。
单侧上限---过高异常 双侧---过高 过高、 单侧上限 过高异常 双侧 过高、过低均异常
正态分布除了可估计频数分布外,还 是许多统计方法的基ห้องสมุดไป่ตู้,并可应用于 质量控制及制定医学参考值范围。
医学参考值范围的制定
一、基本概念 医学参考值( 医学参考值 ( reference value ) 是指包括绝 value) 大多数正常人的人体形态、 大多数正常人的人体形态 、 机能和代谢产物等各 种生理及生化指标常数,也称正常值。 种生理及生化指标常数,也称正常值。 由于存在个体差异, 由于存在个体差异 , 生物医学数据并非常数而是在 一定范围内波动,故采用医学参考值范围 ( medical reference range ) 作为判定正常和异 range) 常的参考标准。 常的参考标准。
二、方法
1、正态分布法: 许多生物医学数据服从或近似服从正态 分布,如同年龄同性别儿童的身高值、 分布,如同年龄同性别儿童的身高值、体 重值,同性别健康成人的红细胞数等; 重值,同性别健康成人的红细胞数等; 有些医学资料虽然呈偏态分布,但若能 通过适当的变量变换转换为正态分布,也 通过适当的变量变换转换为正态分布,也 可采用正态分布法制定参考值范围。