医学统计学方法
307.5
322.5 337.5 352.5 367.5 382.5 397.5
11
22 24 27 20 15 11
3382.5
7095.0 8100.0 9517.5 7350.0 5737.5 4372.5
1040119.0
2288138.0 2733750.0 3354919.0 2701125.0 2194594.0 1738069.0
375~
390~ 405~ 420~435
15
11 8 1
10.00
7.33 5.33 0.67
(frequency table),如表
9-2。所绘的图形见图9-1。
合计
150
100.00
9
资料的分布类型: 1. 对称分布或正态分布; 2. 偏态分布:高峰在左侧或右侧; 3. 不规则分布:分布很散,无明显高峰
15 L:中位数组段下限值,ΣfL:小于L的累计频数,i:中位数组距 .
表9-5 308名6岁以下儿童尿铅值的频数分布(中位数计算)
尿铅值 (mmol/L) (1) 人数 f (2) 累计频数 Σf (3) 累计频率 (%) (4)=(3)/n
M(X 50% ) L i f50%
0~
25~
27
表9-4 某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度
抗体滴度(i) 人数fi 滴度倒数Xi lg10(Xi) fi×lg10(Xi)
(1)
1:2.5 1:5.0
(2)
3 7
(3)
2.5 5.0
(4)
0.3979 0.6990
(5)=(2)×(4)
1.1937 4.8930
1:10.0
1:20.0 1:40.0 合计
尿酸浓度 (μmol/L) 270~ 285~ 300~ 315~ 频数 2 9 11 22 频率(%) 1.33 6.00 7.33 14.67
包含的观察例数,即为频
数,如表9-2的第 (2)栏。
330~
345~ 360~
24
27 20
16.00
18.00 13.33
将各组段及其相应的频数
列成表格,即为频数表
组段的划分
270~ 285~ 300~ 315~ 330~ 345~ 360~ 375~ 390~ 405~ 420~435
1
2
3
4
5
6
7
8
9
10
11
8
(3)列频数表:按上述组段 序列制成表的形式,采用 划记法或计算机将原始数 据汇总,得出各组段中所
表9-2 2002年某市150名20~29岁 正常男子的尿酸浓度的频数分布
假设检验:是利用样本的实际资料来检验事先对总体某 些数量特征所作的假设是否成立。
统计描述 参数估计 统计分析 统计推断 假设检验
4
第一节
数值型变量资料的统计描述
例9.1 2002年某市150名20~29岁正常男子的 尿酸浓度(μmol/L) ,资料见表9-1。如何进行统 计描述?
三、绘制统计表和统计图
7
一、编制频数分布表:制表步骤: (1)求极差或全距(range):R=Xmax - Xmin 本例, R=428.7-278.6=150.1(μmol/L)。 (2)决定组数、组段数和划分组距(class interval): 根据样本含量的多少确定组数,一般设8~15组。 组段数=取整(极差/组数)。 本例:组段数=取整(150.1/10)=15.0115 划分组距:每组段的起点和终点分别称为下界和上界。 组距:本组内的上界和下界之差。
(一) 全距(range)或极差:R=Xmax - Xmin
10
二、计算平均值—代表平均资料的平均水平 1.平均值的种类: (一) 算术均值(arithmetic mean,average):常用 表 示样本均值,希腊字母μ表示总体均值。适用于对称分 布的数值型变量资料。 其计算方法有: ①直接法: χi (I=1,2,…,n)为第i个观察; 4个观察值:1,3,5,7. M=4.
①直接法: 设n 为观察值的个数,有公式(9-5)及(9-6)
n为奇数:M X ( n1)/ 2 n为偶数时:M [ X n / 2 X (n / 2) 1 ]
②频数表法: χi 为第i组的组中值(或观察值), fi 为第i组例 i 数: M(X50% ) L n 50% f L (9-7) f50%
G n x1 x2 xn
1
(9 3)
lg x1 lg x2 lg xn 1 lg xi lg ) lg ( n n
②加权法: χi 为第i组的组中值(或观察值), fi 为第i组例数: 1 f1 lg x1 f 2 lg x2 f k lg xk 1 f i lg xi G lg lg (9 4) f1 f 2 f k fi 13
5
表9-1
362.6 364.2 368.7 372.5 405.9 329.8 327.6 316.6 388.2 376.2 371.0 348.5
2002年某市150名20~29岁正常男子的尿酸浓度(μmol/L)
285.9 338.1 378.2 335.6 316.3 312.0 358.9 348.7 329.4 344.6 413.6 406.6 300.2 316.9 346.1 341.1 338.7 313.6 289.4 401.6 321.1 308.6 348.7 357.6 333.6 332.7 278.6 371.0 402.6 338.7 366.2 334.6 320.4 347.0 392.7 338.7 334.0 324.0 318.3 355.9 379.4 328.6 387.4 308.9 313.5 428.7 401.0 341.6 288.8 282.6 323.2 362.7 329.6 291.3 298.4 367.0 339.8 369.1 313.6 349.8 338.5 369.8 322.6 368.1 354.6 329.7 408.7 345.6 409.4 311.4 366.8 289.4 341.9 398.7 382.1 332.4 331.4 361.8 389.8 401.6 387.4 376.3 387.2 366.2 344.6 338.7 322.6 405.6 349.6 392.4 362.5 357.1 378.5 349.4 319.7 357.5 3375 308.9 309.6 328.8 419.5 414.9 354.9 304.6 392.0 289.2 329.4 298.4 298.3 392.1 352.0 358.8 324.6 319.7 352.7 338.5 352.7 366.8 357.5 336.8
150~
175~ 合计
12
5 308
303
308
98.38
100.00
25 M(X50% ) 50 308 50% 81 69.21(mmol / L) 95
16
三、计算标准差---反映资料的离散程度。 数值变量数据的频数分布有集中趋势和离散程度两个主要 特征,只有两者相结合,才能全面地认识事物。 反映资料的离散程度的统计量(统计指标)有:
405~
420~435 合计
412.5
427.5
8
1 150
3300.0
427.5 52470.0
1361250.0
182756.3 18518738.0
fi xi 52470 x 349.8( mol / L) f i 150
12
(二) 几何均值(geometric mean,G) 适用条件: 等比级数资料. 原始观察值呈偏态分布、但数 据经过对数变换后呈正态分布或近似正态分布的资料。如 医学实践中某些疾病的潜伏期、抗体滴度、平均效价等。 其计算方法有: ①直接法: χi 为第i个观察对象的观察值
54
27
81
8.77
26.30
n 50% f L
50~
75~ 100~ 125~
95
55 39 21
176
231 270 291
57.14
75.00 87.66 94.48
L: 中位数组段下限值, ΣfL:小于L的累计频数, i: 中位数组距, f50%:中位数组频数.
L=50, ΣfL=81, i=25 f50%=95
血清血凝抑制抗体的几何平均滴度为1:10.206。 X=(2.5×3+5.0 ×7+10.0×14+20.0 ×6+40.0 ×4)/34=13.6 (算术平均滴度为1:13.6) 14
(三) 中位数(median, M): 将观察值按大小排序后,位次居中的观察值。M=X(P=50%) 在全部观察值中小于M的观察值个数与大于M的观察值个 数相等。由于M不受个别特小或特大观察值的影响,适用 于分布不规则或分散度很高的资料.
1
14
6 4 34
10.0
20.0 40.0
1.0000
1.3010 1.6021
14.0000
7.8062 6.4084 34.3013
1.1937 4.8930 14.0000 7.8062 6.4084 1 34.3013 G lg lg 3 7 14 6 4 34 lg 1 1.0089 10.206
x
x1 x2 x3 xn xi x n n n
i i 1
x
(9 1)
②加权法: χi 为第i组的组中值, fi 为第i组的例数: