第三章 变异程度的统计描述
图3-2 正态分布曲线下的面积
-4
-3
-2
-1
01
1
2 2
2
3
3 4
3
5
6
7
1
图3-3
三种不同均值的正态分布
1
2
医学统计学
第三章 变异程度的统计描述
衡量变异程度的指标 正态分布及应用 医学参考值范围
例3.1 对甲乙两名高血压患者连续观察5
天,测得的收缩压(mmHg)结果如下:
患者 甲患者 乙患者 第1天 第2天 第3天 第4天 第5天 162 164 145 160 178 163 142 159 186 166 均数 162.6 162.4
变异系数
一、极差和四分位数间距
1、极差(range)
又称全距,即观察值中最大值与最小值之差。 用符号R表示。 R越大,说明资料离散程度越大。 如前例甲乙两患者收缩压的极差分别为:
优点: 简单明了,容易使用。如用于说明传 染病、食物中毒等的最短、最长潜伏期等。
缺点:
没有利用观察值中的全部信息,不稳定。
正态分布的特征
均数处最高,以均数为中心,左右对称
曲线下面积集中在以均值为中心的中心部分
曲线下的面积有一定规律
正态分布完全由参数μ和决定
.58 -5 2 -4
1 .96 -3 -2 -1
0
1 .96 2 1 3
4 2 .58 5
68 .3% 95 .0% 99 .0%
变异程度。 Q越大,说明资料变异程度越大。 第二章例2.4:
Q = P75 - P25 = 135.7–63.2 = 72.5mg/L
优点:与极差相比不易受极端值影响
缺点:仍然没有利用观察值中的全部信息,不稳定。
二、离均差平方和、方差、标准差和变异系数
平均偏差
离均差平方和 方差 标准差 变异系数
(一)平均偏差(Mean Difference)
1、概念: 将每个观察值与均数之差的绝对值相加,然后 取平均值称为平均偏差。 2、公式:
平均偏差越大,说明资料离散程度越大。
如对于例3.1: 甲患者:
乙患者:
缺点:由于使用绝对值,应用受到限制,实际
中很少用到。
(二)离均差平方和(Sum of Square,SS)
为了克服平均偏差的缺点,可以不通过取绝
为10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
第二节、正态分布及应用
正态分布 标准正态分布 正态分布应用
一、正态分布(Normal Distribution)
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5.0 5.4 5.8 X
对值,而是通过取平方来避 通常作为一个中间统计量使用。
(三)方差 (Variance) 方差是将离均差平方和再取平均,即
注意:对于样本资料,分母用的是n-1,称
为自由度(degree of freedom,df )。 方差的特点:便于数学上的处理,但由于 有平方,度量衡发生变化,不便于实际应用。
可以看出:
两患者收缩压的均数十分接近,
但甲患者血压波动较大,而乙患者相对稳定。
通常,描述一组观察值,除需要表示其平均
水平外,还要说明它的离散或变异的情况。
第一节、衡量变异程度的指标
第一类 按间距计算 第二类 按平均差距计算 级差 四分位间距 平均偏差 离均差平方和 方差
标准差
红细胞计数(x1012/L)
(1) 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~
组中值(x)
(2) 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
频数(f)
(3) 2 6 11 25 32 27 17 13 4
fx
(4) 7.80 24.60 47.30 112.50 150.40 132.30 86.70 68.90 22.00
f x2
(5) 30.42 100.86 203.39 506.25 706.88 648.27 442.17 365.17 121.00
5.60~
5.80~5.95 合计
5.70
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5 5.4 5.8
f (X )1.2 1 0.8 0.6 0.4 0.2
X
0 3.6
4
4.4
4.8
5.2
5.6
6
X
图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图
正态分布有两个参数:
和
, 分别表示均数和标准差。
(四)标准差 (Standard Deviation)
将方差取平方根,还原成与原始观察值单位
相同的变异量度即为标准差:
例如对于例3.1经计算有 甲患者:
乙患者:
对于频数表资料
为各组段的组中值
f 为各组段的频数
例3.2 根据第二章表2-2频数表资料,计算成年 男子红细胞数的标准差。计算表如下:
表3-1 140名成年男子红细胞计数(×1012/L)的标准差计算表
2、四分位数间距(quartile)
将所用观察值排序后,分成四个数目相等的段
落,每个段落的观察值数目各占总例数的25%,去
掉两端的25%,取中间的50%观察值的数据范围即为
四分位数间距。 用Q表示。
上四分位数Qu(P75)与下四分位数Ql(P25)之
差,包含了全部观察值的一半。
四分位数间距主要用于衡量明显偏态分布资料的
系数、描述正态分布、估计正常值范围。
(五)变异系数 (Coefficient of Variation )
意义:标准差与均数之比用百分数表示。 符号: CV 计算: 无单位
S CV 100 % X
应用:单位不同的多组数据比较 均数相差悬殊的多组资料比较
例3.3
测得某地成年人舒张压均数为77.5mmHg,标准差
5.90
2
1 140
11.40
5.90 669.80
64.89
34.81 3224.20
根据公式计算:
标准差为:0.38×1012/L
标准差的意义:
全面反映了一组观察值的变异程度,越 大说明围绕均数越离散,反之说明较集中在 均数周围,均数代表性越好。 标准差的应用:
描述变异程度、计算标准误、计算变异