当前位置：文档之家› 《医学统计学》统计描述 (1)

《医学统计学》统计描述 (1)

2500 2500 2500 420
500 500 500
甲乙丙
例4-9,etc
1.极差(Range） (全距)
符号：R 意义：反映全部变量值的
R X max X min
变动范围。
580
优点：简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点：1. 只利用了两个极端值
表2-2 115名正常成年女子血清转氨酶（mmol/L）含量分布
转氨酶含量
人数
12～
2
15～
9
18～
14
21～
23
24～
19
27～
14
30～
11
33～
9
36～
7
39～
4
42～45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶（mmol/L）
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数；
lg 1表示以10为底的反对数
X 0，为正值（0，负数？）
几何均数的适用条件与实例
适用条件：呈倍数关系的等比资料或对数正态分布（正偏态）资料；如抗体滴度资料
例血清的抗体效价滴度的倒数分别为：10、
100、1000、10000、100000，求几何均数。
XG
lg1
图 2-3 101 名正常人血清肌红蛋白的频数分布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中位置。本例在组段“4.7~4.9”。
——平均水平指标
②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例；离“中心”位置越远，频数越小；且围绕“中心” 左右对称。
四分位数: (定义:P53) QL, Md, QU
四分位数间距(QR) ：
QR＝P75－ P25
四分位半间距：
QD＝QR/2 意义：
100% 80% 60% 40% 20% 0% 0
P100(max) P75
P50(中位数) P25
P0(min)
Px
频数表资料的百分位数
Px 所在组段下限值组距 (n x% 至该下限值的累计频数)
➢左偏态分布（负偏态分布）：
左侧的组段数多于右侧的组段数，频数向左侧拖尾。
表2-3 101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量
人数
0～
2
5～
3
10～
7
15～
9
20～
10
25～
22
30～
23
35～
14
40～
9
45～50
2
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血清肌红蛋白（μg / m L）
二、描述离散趋势的特征数
（变异（variation）指标）
反映数据的离散度（ Dispersion ）。即个体观察值的变异程度。常用的指标有：
1. 极差(Range） (全距) 2. 百分位数与四分位数间距
Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
例4-2 “权数” 例4-
2. 几何均数（geometric mean）
意义：用于描述对数正态分布、或数据呈倍数变化
资料的平均水平。符号：XG XG n X1X2 Xn
计算：
（4-3）
lg
XG
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
X G lg 1
lg X n
几何均数：变量对数值的算术均数的反对数。
资料类型计数和等级计量
组段
频数
观察结果的所有分类
根据观察结果重新划分
相同类别出现的次数
分组统计
P44 表4-1，4-2，4-3
1. 频数表的编制步骤
（1）求极差（range）：即最大值与最小值之差，又称为全距。
本例极差： R=5.88－3.79=2.09（1012/L）
（2）决定组数、组段和组距：根据研究目的和样本含量n确定。组距=极差/组数，通常分8-15 个组，为方便计，组距参考极差的十分之一, 再略加调整。
P46 表4-4
三、频数分布图 P47
二、计量资料频数表和频数分布图用途
1．描述频数分布的类型* （1）对称分布：若各组段频数的分布以频
数最多的组段为中心左右两侧大体对称（总体则完全对称），就认为该资料是对称分布（2）偏态分布：
➢ 右偏态分布（正偏态分布）：频数最多组段右侧的组段数多于左侧的组段数，高峰向左偏移，频数向右侧拖尾。
3. 中位数（median）
意义：将一批数据从小至大排列后位次居中的数据值，反映一批观察值在位次上的平均水平。
符号：Md
适用条件：适合各种类型的资料。尤其适合于①大样本偏态分布的资料； ②资料有不确定数值；③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列，再按以下公式计算：
所在组段下限值至上限值间的频数
Px
Lx i
(n
x% fL ) fm
PX L
i; fm
(n
下限值L
x%
fL )
百分位数Px
上限值U
例4-10
百分位数的应用
➢确定医学参考值范围（reference range）： (偏态分布资料) 如95％参考值范围＝P97.5－P2.5（双侧） P5 或P95 （单侧）；
分母为n-1，称为自由度（能自由取值的变量的个数）。
4.标准差
标准差（standard deviation）即方差的正平方根；其单位与原变量X的单位相同。(p54)
总体标准差 (X X )2 N
样本标准差S (X X )2＝ X 2 X 2 n
n 1
n 1
频数表样本标准差S fX 2 fX 2 f
lg101
lg102
lg103 5
lg104
lg105
1000
此例的算术均数为22222，显然不能代表滴度的平均水平。同一资料，几何均数<均数
P50 例4-4
频数表资料的几何均数
G
lg
1
fi
lg X i fi
lg
1
f1 lg
X1
f2
lg
X2 fi
fn
lg
Xn
（4-5）
例4-5
本例i= R /10=2.09/10=0.209≈0.2 （1012/L）
（3）确定组段的上、下限，列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。
组段下限（L）：每个组段的起点组段上限（U）：每个组段的终点
L X U
（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。
均数、中位数的关系
正态分布时：均数＝中位数正偏态分布时：均数>中位数负偏态分布时：均数<中位数
小结：
集中趋势的描述——平均数
平均数：描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数：正态或近似正态或观察值相差不大的小样本资料几何均数：对数正态分布或等比级数资料中位数：一般偏态分布（传染病发病的潜伏期）
fm
Md L
i; fm
(n
下限值L
50%
fL )
中位数Md
上限值U
位次之比等于数值之比
P51 例4-8
百分位数（percentile）
符号：Px
定义：位置指标，数据从小到大排列;将其
位次转换为百分位，对应于x%位次的数值即为第x百分位数。符号：Px。
5. 众数（mode）
出现次数（或频数）最多的观察值；在频数分布图中对应于高峰所在位置的观察值。适用于大样本；较粗糙。
——变异水平指标
3．便于发现一些特大或特小的可疑值*
组段 (1) 2.30～ 2.60～ 2.90～ 3.20～ 3.50～ 3.80～ 4.10～ 4.40～ 4.70～ 5.00～ 5.30～ 5.60～5.90 合计
频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101
4 540 510 505 291600 260100 255025
5 560 520 510 313600 270400 260100
合计 2500 2500 2500 1260400 1251000 1250250
标准差 50.99 15.81 7.91
甲的标准差S
X2
X2 n
1260400 25002 / 5＝50.99
位置,反映一组同质资料的集中趋势（ central
tendency ）。
P48
常用的有：
1. 算术均数(arithmetic mean)，简称均数 (mean)
2. 几何均数(geometric mean)
3. 中位数 (median)
4. 众数（mode）
作用： 1.代表性
选用：根据分布

e商务文档

《医学统计学》统计描述 (1)

相关文档推荐：