定量资料的统计描述
x
n
i
例3-3 现有10名6岁女孩的身高值(cm)为110.9, 120.4,108.2,121.2,112.3,121.8,117.0,111.4, 117.2,108.3,试求其算术均数。
110 .9 120 .4 108 .3 X 114 .87 10
计算方法 2. 加权法 f1 x1 f 2 x 2 f n xn fi xi x f1 f 2 f n fi
129~132 130.5
加权法
x =Σfixi/Σfi
=13887/120=115.725(cm)
直接法计算出的均数为115.7567。因 此,加权法计算出的为近似值。
见SAS程序
第二节 集中趋势的描述
二、几何均数( geometric mean)
定义:n个观察值的乘积开n次方所得到的 值,记为G。 适用条件:资料呈偏态分布,且差距相差较 大,如细菌计数;数值呈倍数递 增或递减的资料,如抗体滴度。
30
频 数
20
10
0
0 1 2 3 4 5 6 7 8
乳牙数
图3-1 某年某市120名1岁男童乳牙数的频数分布
见SAS程序
二、连续型定量资料的频数分布
例3-2 某市2000年l20名6岁女孩的身高(cm)资料如下,试编制频数表。
105.4 119.5 105.7 105.8 106.2 123.4 108.3 113.9 119.8 112.3 112.8 122.8 113.2 104.3 127.8 118.9 103.8 112.4 110.9 116.1 114.1 121.1 121.6 121.1 118.7 113.3 115.8 124.0 122.6 115.0 120.4 114.4 118.8 116.5 119.2 124.6 119.0 112.2 118.5 117.5 104.0 128.1 108.2 118.8 116.7 110.3 113.5 125.7 107.0 110.7 115.7 123.1 126.5 110.9 121.2 116.1 113.4 119.1 112.5 122.5 106.8 112.7 116.7 113.7 116.0 125.1 112.3 108.4 122.2 118.4 123.1 121.0 114.2 110.8 110.3 124.1 117.5 114.4 121.8 114.5 118.1 106.3 116.6 124.4 101.2 115.6 118.0 125.3 110.3 110.2 117.0 109.0 121.2 115.3 129.5 120.9 114.9 109.2 113.0 117.8 120.1 112.0 111.4 116.8 114.0 121.0 112.3 111.3 114.1 116.0 118.5 108.7 113.2 116.4 117.2 110.8 116.7 107.5 126.8 112.5
4.同组数据的G小于算术均数。
第二节 集中趋势的描述
三、中位数和百分位数 (median and percentile) 1.中位数 定义:是指把一组数据从小到大按顺序排列, 位置居中的那个数值。记为M。 适用条件:资料呈明显的偏态分布,资料一端或 两端无确定值,资料的分布不清楚。 2.百分位数 定义:一组数据从小到大按顺序排列,分为100等 份,第x位置上的点称第x个百分位数
lg 640) / 8] lg 1 (1.752575 56.57 )
G lg 1 [(lg5 lg10 lg 20 lg 40 lg 80 lg160 lg 320
计算方法 2. 加权法
f lg xi f1 lg x1 f 2 lg x2 f n lg xn 1 i G lg ( ) lg ( ) f1 f 2 f n fi
计算方法 2.频数表法
i 中位数: M L (n 50% f L ) fM
i 百分位数:Px L (n x% f L ) fx
x% (1-x)%
Px
表3-5某市60名正常成年女子总胆固醇(mmol/L)测定结果
组段 (1) 2.5~ 2.8~ 3.1~ 3.4~ 3.7~ 4.0~ 4.3~ 4.6~ 4.9~ 5.2~ 5.5~5.8 合计 频数f (2) 2 5 8 12 11 6 5 4 4 2 1 60 累计频数 (3) 2 7 15 27 38 44 49 53 57 59 60 - 累计频率 (%) (4) 3.33 11.67 25.00 45.00 63.33 73.33 81.67 88.33 95.00 98.33 100.00 -
计算方法 1.中位数的直接算法
M xn 1
1 M [ xn x n ] 2 2 ( 2 1)
2
n为奇数 n为偶数
例3-7 某医生观察5名小细胞未分化型肺癌患者, 其生存期(月)为:4,18,21,23,41,求中 位数。 M=21(月)
百分位数的直接算法(补充)
n个数据从小到大排列,第x个百分位数的 计算公式:
其中xi为每组组中值,fi为每组的频数 。
表3-2 120名6岁女童身高频数分布
身高 组中值xi 频数fi
fixi 100.5 310.5 852.0 1642.5 2250.0 2772.0 2251.5 1822.5 1245.0 510.0 130.5 13887.0
f i xi2
99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126 合计
第 三 章 定量资料的统计描述
卫生统计学教研室
定量资料(quantitative data):计量资料、 数值变量资料,它是通过测量每个观察 单位某项指标值大小得到的资料,一般 有度量衡单位。
定 量 资 料
Байду номын сангаас
离散型资料(discrete data)
变量取值可以一一列举,为不连续的资料
连续型资料(continuous data)
表3-2 某市120名6岁女孩身高频数分布
身高 99~ 102~ 105~ 正 108~ 正正正 111~ 正正正正 114~ 正正正正 117~ 正正正 120~ 正正正 123~ 正正 126 129~132 合计 一 划记 频数 频率( % ) 累积频数 累积频率( % ) 1 3 8 15 20 24 19 15 10 4 1 120 0.83 2.50 6.67 12.50 16.67 20.00 15.83 12.50 8.33 3.33 0.83 100.00 1 4 12 27 47 71 90 105 115 119 120 0.83 3.33 10.00 22.50 39.17 59.17 75.00 87.50 95.83 99.17 100.00
离散趋势(tendency of dispersion)
随着身高值的逐渐变大或变小,人数越 来越少,向两端分散。
频数分布的类型
1.正态分布或对称分布。
2.偏态分布
正偏态分布 负偏态分布
正偏态分布: 集中位置偏向于左侧,尾部偏右 负偏态分布:集中位置偏向于右侧,尾部偏左
25
20
Frequency
15
计算方法
1.直接法 公式 G n x1 x2 xn
lg xi lg x1 lg x2 lg xn 1 ) lg ( ) = lg ( n n
1
例3-4 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640,求平均抗体 效价。
第二节 集中趋势的描述
一、算术均数(arithmetic mean) 定义:它是一组已知性质相同的数值之 和除以数值个数所得到的商。 表示符号:总体均数用希腊字母μ表,样 本均数用 x 表示。 适用条件:是资料正态或近似正态分布。
计算方法 1.直接法
x1 x2 x3 xn i 1 当n<30时,x n n
患者 1 2 3 4 住院天数 1 2 2 2 5 3 6 3 7 4 8 4 9 5 … … 117 118 40 40 119 120 42 45
(1) n=120, 1205%=6, 为整数, P5=1/2[X6+X7]=(3+4)/2=3.5(天) (2) n=120,12099%=118.8, 取整后为118, P99=X[118+1]=42(天)
某年某市120名1岁男童乳牙数的频数分布
频数f (2) 2 4 7 9 14 21 28 24 11 120 频率(%) (3) 1.67 3.33 5.83 7.50 11.67 17.50 23.33 20.00 9.17 100.00 累计频数 (4) 2 6 13 22 36 57 85 109 120 - 累计频率(%) (5) 1.67 5.00 10.83 18.33 30.00 47.50 70.83 90.83 100.00 -
100.5 103.5 106.5 109.5 112.5 115.5 118.5 121.5 124.5 127.5
1 3 8 15 20 24 19 15 10 4 1 120
10100.25 32136.75 90738.00 179853.80 253125.00 320166.00 266802.80 221433.80 155002.50 65025.00 17030.25 1611414.15
计算中位数及P25、P75 P25=3.1+(0.3/8)(60 25%-7)=3.40(mmol/L)
频数分布图
30
身 高 频 数
20
10