医学统计学2
Σ为求和符号,读成sigma
17
表2-3 140名正常男子红细胞数的均数计算表
脉搏组段(i) 3. 80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 5.60~ 5.80~6.00 合计 组中值(xi) 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90 频数(fi) 2 6 11 25 32 27 17 13 4 2 1 140 fi xi 7.8 24.6 47.3 112.5 150.4 132.3 86.7 68.9 22 11.4 5.9 669.8
fm=167
∑fL=196
169 167 94 81 42 28 14 4 3 1 630
L=70
M = 70 +
30 (630 × 50% − 196) = 91.4(mg / dl ) 167
32
(二)百分位数
——是把一组数据从小到大排列,分割成100等 是把一组数据从小到大排列,分割成 等 是把一组数据从小到大排列 的观察值, 份,每等份含1%的观察值,分割界限上的值 每等份含 的观察值 就是百分位数。用符号 P x 表示。 表示。 就是百分位数。
)
i (n • 50 % − ∑ f L ) M = L+ fm
28
例2-5:
有9名中学生甲型肝炎的潜伏期(天): 12,13,14,14,15,15,15,17,19, 试求中位数。 解:(1)对数值从小到大排序; (2)n=9为奇数;
(3 ) M = x
= x5
n +1 2
定义:同时列出观察指标(变量) 定义:同时列出观察指标(变量)的可 观察指标 能取值区间及其在各区间出现的频数的 取值区间及其在各区间出现的频数的 及其在各区间出现的频数 一种统计表。 一种统计表。 制作方法: 制作方法:先根据观察值的大小进行分 组,然后计算每组中观察值出现的次数
5
表2-1 某地140名成年男性红细胞数(次/分)
∑lgx) = lg (
−1
n
21
例2-3:
有8份血清的抗体效价分别为1:5,1:10, 1:20,1:40,1:80,1:160,1:320,1:640, 求平均抗体效价。
解:将各抗体效价的倒数代入上式,得
G = lg −1 [(lg 5 + lg10 + lg 20 + L + lg 640) / 8] = lg −1 (1.752575) = 56.57
= 15
29
例2-6:
有8名中学生甲型肝炎的潜伏期(天): 12,13,14,14,15,15,15,17,试 求中位数。 解:(1)对数值从小到大排序; (2)n=8为偶数;
(3 ) M = ( x
n 2
+ x
n +1 2
) / 2
= ( x4 + x5 ) / 2
9
二、直方图
10
三、频数分布表的用途
分布类型:
正态分布(normal distribution) 正偏态分布:数值偏小的为多数;
如研究有害化学物质在人体内的分布
负偏态分布:数值偏大者为多数;
如研究高血压患者的年龄分布
发现特异值 估计概率
11
集中趋势——平均数 第二节 集中趋势 平均数
平均数——描述一组观察值集中位 描述一组观察值集中位 平均数 置或平均水平的统计指标。 置或平均水平的统计指标。
−1
所以,50人的血清平均抗体效价为1:41.70。 24
注意: 注意:
几何均数的观察值不能小于或等于0。 同一组数据若服从正态分布,几何均数 小于均数。
25
三、中位数和百分位数
(一)中位数:是将一批数据从小至大排列 中位数: 后位次居中的数据值, 后位次居中的数据值,符号为M,反映一 批观察值在位次上的平均水平。 批观察值在位次上的平均水平。
适用条件:适合各种类型的资料。 适用条件:适合各种类型的资料。尤其适合于 ①大样本偏态分布的资料;②资料有不确定数 大样本偏态分布的资料; 资料分布不明等。 值;③资料分布不明等。
26
中位数计算方法:
直接法:
27
频数表法: 频数表法:
M = 该组段的下限 + 组距 (总样本例数 • 50 % − 小于 L的各组段累计频数 该组段的频数
算术均数 几何Biblioteka 数 中位数和百分位数12一、算数均数
直接法:当观察例数不多(如样本含量n 小于30)时,或观察例数虽然很多,但 有计算机及统计软件,均可选择。
(小样本)
加权法:适用于频数表资料。当观察例 数很多又缺乏计算机及统计软件时,若 用直接法很容易出错,可选择。
(大样本)
13
例2-1:
求81、70、66、75、71、63、77、74、 76、68、65、77、69的均数。
= (14 + 15 ) / 2 = 14 . 5
30
例2-7:
对某地630名50-60岁的正常女性检查了 血清甘油三脂含量,资料如下表,试计 算其中位数。
31
表2-4 某地630名正常女性血清甘油三脂含量的频数表
甘油三脂(mg/dl) (1) 10~ M所在组 40~ 70 ~ 100 ~ 130 ~ 160 ~ 190 ~ 220 ~ 250 ~ 280 ~ 310 ~ 合计 频数 (2) 27 累积频数 (3) 27 196 363 457 538 580 608 622 626 629 630 相对频数(%) (4) 4.3 26.8 26.5 14.9 12.9 6.7 4.4 2.2 0.6 0.5 0.2 100.00 累积相对频数(%) (5) 4.3 31.1 57.6 72.5 85.4 92.1 96.5 98.7 99.4 99.8 100.00 包含50%
所以,血清的抗体平均效价为1:56.57。
22
加权法:
G =
lg
−1
∑ (
f lg x
∑
f
)
23
例2-4:
有50人的血清抗体效价,分别为:5人 1:10,9人1:20,20人1:40,10人1:80,6 人1:160,求平均抗体效价。
解:将抗体效价的倒数直接代入上式,得:
5lg10+ 9 lg 20+ 20lg 40+10lg80+ 6 lg160 −1 ) G = lg = lg (1.62012 = 41.70 5 + 9 + 20+10+ 6
平均数( 第二节 平均数(average) )
算数均数( 算数均数(arithmetic mean) ) 几何均数( 几何均数(geometric mean) ) 中位数( 中位数(median)和百分位数(percentile) )和百分位数( ) 2
集中趋势 计量资料 统计描述 计数资料 统计分析 区间估计 统计推断 假设检验 离散趋势
编号 红细胞数 1 2 3 4 5 6 7 8 … 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 … 编号 红细胞数 … 61 62 63 64 65 66 67 … … 4.81 4.54 3.82 4.01 4.89 4.62 5.12 … 编号 … 133 134 135 136 137 138 139 140 红细胞数 … 4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.76
X = 669 .8 140 = 4 .78
18
均数的应用
适用条件:正态分布或者近似正态分布 总体均数:µ;样本均数:
19
二、几何均数
适用条件: 对数正态分布资料。 数据特点: 数值按大小顺序排列后,各观察值呈倍 数关系或近似倍数关系; 例如:抗体的滴度、药物的效价等
20
计算方法:
直接法:
G=n xx2Lxn 1
6
1.频数分布表的制作步骤
):即最大值与最小值之差 (1)求极差(range):即最大值与最小值之差,又称为全距。 ) 极差( ):即最大值与最小值之差,又称为全距。 本例极差: 本例极差: R=5.95-3.82=2.13(次/分) - ( 分 组数、 (2)决定组数、组段和组距:根据研究目的和样本含量 )决定组数 组段和组距:根据研究目的和样本含量n 确定。组距=极差 组数,通常分8-15个组,为方便计,组距 极差/组数 个组, 确定。组距 极差 组数,通常分 个组 为方便计, 参考极差的十分之一, 再略加调整。 参考极差的十分之一 再略加调整。 本例i= 本例 R /10=2.13/10=0.213≈0.20。 。 下限略小于最小值, (3)列出组段:第一组段的下限略小于最小值,最后一个 )列出组段:第一组段的下限略小于最小值 组段上限必须包含最大值 其它组段上限值忽略。 上限必须包含最大值, 组段上限必须包含最大值,其它组段上限值忽略。 (4)列表划记:用划记法将所有数据归纳到各组段,得到各 )列表划记:用划记法将所有数据归纳到各组段, 组段的频数。 组段的频数。
8
2.频数表的分布特征 频数表的分布特征
①集中趋势(central tendency):变量值集中位置 集中趋势 变量值集中位置 本例在组段“ 。本例在组段“4.60~”。 ~ ——平均水平指标 平均水平指标 ②离散趋势(tendency of dispersion):变量值围 离散趋势 变量值围 绕集中位置的分布情况。 中心”位置越远, 绕集中位置的分布情况。离“中心”位置越远, 频数越小;且围绕“中心”左右对称。 频数越小;且围绕“中心”左右对称。 ——变异水平指标 变异水平指标
数值变量的统计描述——之一 数值变量的统计描述——之一 ——