当前位置:
文档之家› 卫生统计学第7版方积乾主编课件第二章定量资料的统计描述新选
卫生统计学第7版方积乾主编课件第二章定量资料的统计描述新选
简称均数。均数适用于对称分布或近似对称分布的资
料。习惯上以希腊字母 表示总体均数(population
mean),以表示样本均数X (sample mean)。常用计 算方法有直接法和频率表法(亦称加权法)。
2020/6/15
13
1.直接法
X X n
例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP) 含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试 求其算术均数。
1.直接法
G nX 1X 2X 3X n
对数的形式为 G l g 1 lg X 1 lg X 2 lg X n l g 1 lg X
n
n
2020/6/15
17
例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
2020/6/15
33
一、极差和四分位数间距 1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最 小值之差。R值大,离散度就大;R值小,离散度就小。
A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8
极差的特点是计算简单,但只考虑最大值和最小值, 容易受个别极端值的影响,且不能反映组内其他变量值的 离散情况。另外,当调查例数增多时,遇到较大或较小变 量值的机会就大,极差就可能增大。
36~
48~ M 60~
小时
72~
84~
96~
108~
2020/6/15
29
1.百分位数
பைடு நூலகம்
百分位数(percentile,P)是一种位置指标,以Px表示。百 分位数是将频数等分为一百的分位数。一组观察值从小到
大按顺序排列,理论上有x%的变量值比Px小,有(100- x)% 的 变 量 值 比 Px 大 。 故 P50 分 位 数 也 就 是 中 位 数 , 即 P50=M 。百分位数的计算公式为
本例从累计频率看,M位于48~组段,即L=48,i=12,fm=11, ΣfL=19,
2020/6/15 M L fim (n 2 fL ) 4 8 1 1(5 2 1 2 0 1) 95.5 4(5 小时) 28
频数
12 10
n 2
f
L
i fm
(
n 2
fL )
8
6
ΣfL
4
fm
2
0 12~
24~
140
滴度倒数
2020/6/15
22
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
2020/6/15
23
三、中位数及百分位数
1.中位数(median , M)
将一组变量值从小到大按顺序排列,位次居中的变量值 称为中位数。在全部变量值中,大于和小于中位数的变量值 的个数相等。
用中位数表示平均水平主要适用于:①变量值中出现个别 特小或特大的数值;②资料的分布呈明显偏态,即大部分的 变量值偏向一侧;③变量值分布一端或两端无确定数值,只 有小于或大于某个数值;④资料的分布不清。
血清铁含量(μmol/L)
血清铁含量(μmol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
2020/6/15
9
频数
30 25 20 15 10 5 0
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μmol/L)
2-2 120名健康成年男子血清铁含量(μmmo/L)分布
P75又称为上四分位数(upper quartile ); P25又称为下四分 位数(lower quartile )。
3
一、离散型定量变量的频率分布
例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-1 1998年某地96名孕妇产前检查次数频率分布
2020/6/15
4
离散型定量变量的频率分布图可用直条图表达,以等 宽直条的高度表示各组频率的多少
频率(%)
30
25
20
15
10
5
0
0
1
2
3
4
5
>5
Px Lfix (nx%fL)
式中L为Px所在组段的下限,i为该组段的组距,fx为该组段
的频数,ΣfL为小于L的各组段累计频数。
2020/6/15
30
如 试求表2-5资料中百分位数P25、P75 。
由表2-5累计频数栏可见P25在“36~”组段,L=36,i=12,
fx=11, ΣfL=8,代入公式得
累计频率找出M所在的组段,然后按下式计算。
ML fim(n2fL)
式中L为中位数所在组段的下限,i为该组段的组距,fm为 该组段的频数,ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5, 试计算潜伏期的中位数。
2020/6/15
27
表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表
2020/6/15
34
2.四分位数间距(quartile interval,Q)
极差的不稳定主要受两端值的影响,如将两端数据各去掉 一部分,这样所得的数据就比较稳定了。例如两端各去掉25
%,取中间50%的数据的极差,这样可先计算P25和P75,求 出P75与P25之差,即为四分位数间距。
Q= P75-P25
2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距 用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠 近的整数作为组距,本例取i=2。
3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称 为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的 整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括 最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后 一个组段可包括其上限值,如本例28~30。
4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
2020/6/15
7
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布
2020/6/15
8
概率密度(%)
概率密度(%)
12
10
12
8
10
6
8
4
6
4
2
2
0
0
6~ 8~ 6~10~8~ 1120~~ 121~4~14~161~6~ 1188~~20~20~22~ 2224~~ 262~4~28~26~ 28~
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:①变量值中不能有0;②不能同时有
正值和负值;③若全是负值,计算时可先把负号去掉,得出 结果后再加上负号。
2020/6/15
20
2020/6/15
21
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
本例先求平均滴度的倒数
G 71 3 6 3 2 6 2 6 4 1 4 2 58 1 62 4
G l 1 g l1 g l6 3 g l2 3 g l2 6 g l4 6 g l4 1 g l 2 5 g 8 1 l 1 g 1 2 .8 0 6
7
7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。
本例
XX31.263.9075(U/L) n8
2020/6/15
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
XfX0 fX0 f n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 XfX0 222818.57(μmmo/L) f 120
述一组资料在某百分位置上的水平;②用于确定正常值范围;
③计算四分位数间距。
2020/6/15
31
四、众数( mode)
一组数据中出现次数最多的数值,叫众数。众数在频率 分布表中是频数最多的那一组的组中值,有时众数在一组 数中有好几个或者没有众数。
例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4 的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42 和54。
P 25 3 61 1(2 1 5 02% 58)4.9 0(1小时)
同 理 可 知 P75 在 “ 72 ~ ” 组 段 , L=72 , i=12, ΣfL=74P ,代75 入7 公式 21 得5(2 5 0 7% 53)7 7.2 3(小时)
fx=5,
百分位数的使用条件同中位数一样。主要用途为:①描
本例n=9,为奇数 MX91X56.36
2
如果n=10例,生存时间为69.6,则中位数为
M ( X 1 0 X 1 1 ) 0 /2 ( X 5 X 6 ) /2 ( 6 . 6 3 6 . 6 ) / 5 2 6 . 6 4 22
2020/6/15
26
(2)频率表法 当例数较多时,先将变量值从小到大编制 频率表,并分别计算累计频数和累计频率(见表2-5)。先从
2020/6/15
18
2.频率表法:当资料中相同变量值的个数f(即频数) 较多时,可通过频率表法计算几何均数,公式为
Glg1flfgX
表2-4 52例慢性肝炎患者的 HBsAg滴度资料