当前位置:文档之家› 《医学统计学》统计描述 (1)

《医学统计学》统计描述 (1)


2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
——平均水平指标
②离散趋势(tendency of dispersion):变量 值围绕集中位置的分布情况。本例;离“中 心”位置越远,频数越小;且围绕“中心” 左右对称。
四分位数: (定义:P53) QL, Md, QU
四分位数间距(QR) :
QR=P75- P25
四分位半间距:
QD=QR/2 意义:
100% 80% 60% 40% 20% 0% 0
P100(max) P75
P50(中位数) P25
P0(min)
Px
频数表资料的百分位数
Px 所在组段下限值 组距 (n x% 至该下限值的累计频数)
➢左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖 尾。
表2-3 101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度( Dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 极差(Range) (全距) 2. 百分位数与四分位数间距
Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
例4-2 “权数” 例4-
2. 几何均数(geometric mean)
意义:用于描述对数正态分布、或数据呈倍数变化
资料的平均水平。 符号:XG XG n X1X2 Xn
计算:
(4-3)
lg
XG
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
X G lg 1
lg X n
几何均数:变量对数值 的算术均数的反对数。
资料类型 计数和等级 计量
组段
频数
观察结果的所有 分类
根据观察结果重 新划分
相同类别出现的 次数
分组统计
P44 表4-1,4-2,4-3
1. 频数表的编制步骤
(1)求极差(range):即最大值与最小值之差 ,又称为全距。
本例极差: R=5.88-3.79=2.09(1012/L)
(2) 决定组数、组段和组距:根据研究目的和 样本含量n确定。组距=极差/组数,通常分8-15 个组,为方便计,组距参考极差的十分之一, 再 略加调整。
P46 表4-4
三、频数分布图 P47
二、计量资料频数表和频数分 布图用途
1.描述频数分布的类型* (1)对称分布 :若各组段频数的分布以频
数最多的组段为中心左右两侧大体对称 (总体则完全对称),就认为该资料是 对称分布 (2)偏态分布 :
➢ 右偏态分布(正偏态分布):频数最多组段右侧的组段数 多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
3. 中位数(median)
意义:将一批数据从小至大排列后位次居 中的数据值,反映一批观察值在位次上的平 均水平。
符号:Md
适用条件:适合各种类型的资料。尤其适 合于①大样本偏态分布的资料; ②资料有不 确定数值;③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:
所在组段下限值至上限值间的频数
Px
Lx i
(n
x% fL ) fm
PX L
i; fm
(n
下限值L
x%
fL )
百分位数Px
上限值U
例4-10
百分位数的应用
➢确定医学参考值范围 (reference range): (偏态分布资料) 如95%参考值范围=P97.5-P2.5(双侧) P5 或P95 (单侧) ;
分母为n-1,称为自由度(能自由取值的变量的个 数)。
4.标准差
标准差 (standard deviation)即方差的正平 方根;其单位与原变量X的单位相同。(p54)
总体标准差 (X X )2 N
样本标准差S (X X )2= X 2 X 2 n
n 1
n 1
频数表样本标准差S fX 2 fX 2 f
lg101
lg102
lg103 5
lg104
lg105
1000
此例的算术均数为22222,显然不能代表滴度的 平均水平。同一资料,几何均数<均数
P50 例4-4
频数表资料的几何均数
G
lg
1
fi
lg X i fi
lg
1
f1 lg
X1
f2
lg
X2 fi
fn
lg
Xn
(4-5)
例4-5
本例i= R /10=2.09/10=0.209≈0.2 (1012/L)
(3) 确定组段的上、下限,列出组 段:第一组段的下限略小于最小值, 最后一个组段上限必须包含最大值, 其它组段上限值忽略。
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
L X U
(4) 划记计数:用划记法将所有数 据归纳到各组段,得到各组段的频数 。
均数、中位数的关系
正态分布时: 均数=中位数 正偏态分布时:均数>中位数 负偏态分布时:均数<中位数
小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或 平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大 的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期)
fm
Md L
i; fm
(n
下限值L
50%
fL )
中位数Md
上限值U
位次之比等于数值之比
P51 例4-8
百分位数(percentile)
符号:Px
定义 : 位置指标,数据从小到大 排列;将其
位次转换为百分位,对应于x%位次的数值即为 第x百分位数。 符号:Px。
5. 众数(mode)
出现次数(或频数)最多的观察值; 在频数分布图中对应于高峰所在位置的 观察值。适用于大样本;较粗糙。
——变异水平指标
3.便于发现一些特大或特小的可疑值*
组段 (1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101
4 540 510 505 291600 260100 255025
5 560 520 510 313600 270400 260100
合计 2500 2500 2500 1260400 1251000 1250250
标准差 50.99 15.81 7.91
甲的标准差S
X2
X2 n
1260400 25002 / 5=50.99
位置,反映一组同质资料的集中趋势( central
tendency )。
P48
常用的有:
1. 算术均数(arithmetic mean),简称均数 (mean)
2. 几何均数(geometric mean)
3. 中位数 (median)
4. 众数(mode)
作用: 1.代表性
选用:根据分布
相关主题