第二章定量数据的统计描述.
一、算术均数,简称均数
(arithmetic mean/mean)
均数是算术均数的简称。
总体均数用希腊字母μ(缪,mu)表示 样本均数 X (X bar)表示。
均数反映一组观察值在数量上的平 均水平。
均数的应用 主要用于对称性或近似对称性分 布的资料; 尤其是在正态分布或近似正态分 布上的应用。
指变量值围绕中心数值或中心位置的分 布情况。
第二节 集中趋势的描述
平均数(average):用于观察一组同质变 量值的平均水平/集中位置。亦称中心位置 指标。它不但给人一个简明概括的印象, 而且便于事物间的分析比较。 常用的平均数
算术均数 (arithmetic mean/mean) 几何均数 (geometric mean) 中位数 (median)
负偏态分布
三、频数表和频数分布图的用途 揭示变量的分布特征和分布类型; 便于进一步计算指标和统计分析处 理; 便于发现某些特大或特小的可疑值 。
频数分布的两个特征 集中趋势,central tendency
指变量值的中心数值或中心位置所在。
离散趋势,tendency of dispersion
M X n1
2
X 5 6( day)
M X n X n 2 1 2 2 (X3 X4 ) / 2 (53.0 55.0) / 2 54(cm)
中位数的应用
中位数可用于任何分布的定量资料; 资料的分布呈明显偏态,特别是负偏态; 分布的一端或两端无确定的数值;
f lgX 1.8062 7.2246 7.5255 18.0620 8.4288 4.8164 2.7093
∑flgX=50.58
G lg
1
f lgX f
f lgX 1 50.58 G lg lg 48.5 f 30
1
lgX lg n
1
用直接法计算G
例:有8份血清的抗体效价为为1:5,1:10, 1:20,1:40,1:80, 1:160 ,1:320,1:640 。求平均效价。
lg5 lg10 lg 20 lg40 lg80 lg160 320 640 lgG 8 1.7526 G lg1 1.7526 56.57
2
n为偶数时
M X n X n 2 1 2 2
M计算方法
例: 9人某病潜伏期( 天)分别为3,4,4,5 ,6,7,7,19,19, 求中位数。 例: 6名新生儿身长 (cm)分别为50.1,52.0 ,53.0,55.0,55.0, 56.0,求中位数。
某传染性疾病的潜伏期(天)如下表,求其 中位数和百分位数P95
潜伏期 人数 累计频数 累计频率
(天 )
4~ 8~
f
26 48
∑f
26 74
%
24.04 68.52
12~ 16 ~ 20 ~
25 6 3
99 105 108
91.67 97.22 100.00
i 4 M L n x% f L 8 108 0.5 26 10.3(天) f 48 i 4 P95 L n x% f L 16 108 0.95 99 18.4(天) f 6
2
X a , a X
2
2 2 2 X a X X X X
证 : 设 a X Δ
X X 2X X 2
2 2 2
X X 2 X X 2 X X 2 X X
1
30名麻疹易感儿童接种麻疹疫苗一个 月后血凝抑制抗体滴度为1:48.5
同一组资料求得的几何均数小于均数。
(三)中位数 Median, M
将一组观察值从小到大按顺序排列, 位次居中的观察值,即为中位数。
一半的值比M小,一半的值比M大。
例:1,3,5,7,18 (奇数) 1,3,5,7,18,20 ( 偶数) 计算 M X n 1 n为奇数时
5.75 409.75
59.41
33.06 1705.09
频数表计算均数:
f1 x1 f 2 x2 ... f k xk fx X n n
Xj 为各组的组中值。
组中值等于该组的上限加下限之和除以2。
fj 为各组的频数。
101名正常成年女子的血清总胆固醇均值为:
X
= 409.75/101 =4.06( mmol/L )
胆固醇组段 2.30~ 2.60~ 2.90~ 3.20~ 3.50 ~ 3.80 ~ 频数 1 3 6 8 17 20
2.组数:10 组距 3.36/10=0.336 取0.3 3.分组段: 最小组段2.3~ 最大组段5.6~5.9
4.列表划记:
4.10 ~
4.40 ~ 4.70 ~ 5.00 ~ 5.30~ 5.60 ~5.90
2
(二)几何均数
Geometric mean,G
反映一组呈倍数关系的观察值的平 均水平 适用:数据呈正偏态分布,经对数 转换后呈正态分布。多用于观察值 之间呈倍数关系,如抗体滴度 计算方法
直接法 加权法
1.直接法
G n X1X 2 ...Xn lgX1 lgX1 ... lgXn lg n
(如:>50, 或 <10)
资料的分布不清。 注意:在完全对称的单峰曲线分布中,同 一组资料的均数与中位数相同, Mean = Median
中位数的优缺点 优点:
不受个别特大或特小的观察值影响; 其它平均数不宜使用时,中位数就显示 出它的优越性。
缺点:
掉失了大量信息,其敏感性不够。
17
12 9 5 2 1
二、频数分布图(graph of frequency distribution)
以各组段总胆固醇含量为横轴,频数为纵轴。
Histogram
30
25
20
15
10
Frequency
5 0 2.45 3.05 3.65 4.25 4.85 5.45 6.05
Std. Dev = .66 Mean = 4.03 N = 101.00
试编制频数分布表。
2.35 4.78 3.91 4.15 3.60 4.50 3.30 4.06 4.15 4.21 3.95 4.59 4.55 3.51 3.27 4.73 5.26 4.36 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.95 3.00 3.26
第二章
定量资料的统计描述
2018/10/14
医学统计学---(马斌荣主编)供本科生用
第一节 频数分布
一、频数分布表
简称频数表(frequency table)
例2-1 从某单位1999年的职工体检资料中 获得 101 名正常成年女子的血清总胆固醇( mmol/L )的测量结果如下,试编制频数分布 表。
30名麻疹易感儿童血凝抑制抗体滴度
抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计 人数f 2 6 5 10 4 2 1 30
滴度倒数X
8 16 32 64 128 256 512
lgX 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
1、频数表的编制
找全距(range) 定组距(class interval): 一般分为10~15组,如组距约为全距/10 写组段:
每个组段的起点称为下限,lower limit; 每个组段的终点称为上限,upper limit; 下限≤X<上限
频数表的编制--续
1.计算极差 : 极大值-极小值 5.71-2.35=3.36 101名正常成年女子的血清 总胆固醇频数分布
血清总胆固醇(mmol /L)
SPSS中的操作:
1.建立数据库 2.使用Frequencies 命令 3.先使用Recode 命令, 再用Frequencies命令
频数分布的类型
对称分布:集中位置居中,左右两边对称 偏态分布:正偏态分布(右偏态)峰左尾右 负偏态分布(左偏态)
对称分布
正偏态分布
计算方法
X
1.直接法
X 1 X 2 ... X n
n
X n
Σ:希腊字母(西格马,sigma),求和符号 例9.2 有8名正常人的空腹血糖值(mmol/L): 6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9
6.2 5.4 5.7 5.3 6.1 6.0 5.8 5.9 X 5.8 8