第三讲 描述离散趋势的指标
主要内容
疾病统计常用指标 动态数列及其指标
一、疾病统计常用指标
疾病统计的意义 疾病统计资料的来源 疾病和死因分类 常用疾病统计指标
二、动态数列及其分析指标
表3-10
年份 (1) 1992 1993 1994 1995 1996 1997 1998 1998 2000 2001 2002 符号 (2) a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10
三组儿童体重的离散程度
平均数与变异度
• 平均数所表示的集中性与变异度所表示的离 散性,从两个不同的角度阐明计量资料的特 征! • 均数&标准差 • 中位数&四分位数间距 • 变异度小,则均数代表性好! • 变异度大,数据分散,则均数代表性差!
描述离散趋势的指标
极差(Range)
四分位数间距(interquartile range)
描述离散趋势的指标3:方差
X
离均差
( X )
2
( X )2 N
离均差平方和的均数
离均差平方和
方 差
方差、标准差适用于:对称分布的资料,尤其是正态分布 资料。
描述离散趋势的指标3:方差
方差(variance) 也称均方差,观察值的离均差平
方和的算术均数。表示一组数据的平均离散程 度。 2 总体方差
• 四分位间距适用于:任何分布资料。
组 段 (1) 6~ 8~ 10~ 12~ 14~ 16~
频 数 (2) 1 3 6 8 12 20
频率(%) (3) 0.83 2.50 5.00 6.67 10.00 16.67
累计频数 (4) 1 4 10 18 30 50
累计频率(%) (5) 0.83 3.33 8.33 15.00 25.00 41.67
• 丙组 26 28 30 32 34
极差优点和缺点
优点:简便
缺点:1. 只利用了两个极端值 2.n大,R也会大 3.不稳定
描述离散趋势的指标2:四分位数间距
• P75 、 P 25分别表示上、下四分位数 • 四分位数间距(quartile range) Q = P75 - P 25 • 四分位数间距反映数据的变异程度比极差稳 定。
CV
s X
100%
量纲不同变量间变异度的比较
均数 青年男子 身高 体重 170 cm 60 kg 标准差 6 cm 7 kg 变异系数 3.5% 11.7%
均数差别较大的变量间变异度比较
不同年龄组男子身高(cm)的变异度
年龄组 3~3.5岁 30~35岁
均数 96.1 170.2
标准差 3.1 5.0
≥65 岁人口数 男性人口数
≤14 岁人口数 女性人口数
100% 100%
相对比 相对比
指标 某病发病率 时点患病率 期间患病率 残疾患病率 治愈率 生存率
分子 期内新发生的某病病例数 时点现患疾病人数 期内现患疾病人数 残疾患者人数 治愈人数 活满特定时期的人数
分母 年平均人口数× 年 1 检查人口数 检查人口数 检查人数 接受治疗人数 期初存活的人数
正确应用(2)
• 极差:适用于任何分布资料
•
•
四分位间距:适用于任何分布资料
标准差:适用于对称分布资料
•
变异系数:常用于量纲不同的变量间或均数相
差较大的变量间变异度的比较
本章小结
1. 频数表、频率分布图:
描述资料的分布特征(集中趋势与离散趋势)
分布类型(对称或偏峰) 2. 描述性统计量:定量地刻画统计分布的特征。 (1)集中趋势:算术均数、几何均数、中位数; (2)离散趋势:极差、四分位数间距、方差(标准差) 和变异系数; 3. 百分位数是一种位置参数
18~
20~ 22~ 24~ 26~ 28~30 合 计
27
18 12 8 4 1 120
22.50
15.00 10.00 6.67 3.33 0.83 100.00
77
95 107 115 119 120
64.17
79.17 89.17 95.83 99.17 100.00
P25 16 P75 21.44 Q P75 P25 5.44
基数 10 万/10 万 10 万/10 万 10 万/10 万 100% 100% 100%
类型 强度 (近似) 频率 频率 频率 频率 频率
发病率(incidence rate,IR): “时期”通常用年或月。发病率的分母泛指一般的观察 人年数, 可由平均人口数×1年来近似。
新发病例数:新发生某种疾病,以第一次就诊为准。
3. 正确地合并估计
例 甲医院治疗某类患者100人,40人有效; 乙医院治疗同类患者90人,30人有效 如果两医院总体有效率的确相等, 合并估计:
40 30 有效率 36.8% 100 90
1 40 30 有效率 ( ) 2 100 90
不可将两个频率相加除以2:
4. 相对数间的比较要具备可比性 注意以下几个方面: 观察对象 同质? 研究方法 相同? 观察时间 一致?
某大学1992-2002年本科专业招生动态变化
学生 人数 (3) 4200 4500 4800 4900 5150 5320 5510 5780 5950 6000 6200 绝对增长量 累计 逐年 (4) (5) 300 600 700 950 1120 1310 1580 1750 1800 2000 300 300 100 250 170 190 270 170 50 200 发展速度% 定基比 环比 (6) (7) 100.0 107.1 114.3 116.7 122.6 126.7 131.2 137.6 141.7 142.9 147.6 107.1 106.7 102.1 105.1 103.3 103.6 104.9 102.9 100.8 103.3 增长速度% 定基比 (8) =(6)-100 7.1 14.3 16.7 22.6 26.7 31.2 37.6 41.7 42.9 47.6 环比 (9) =(7)-100 7.1 6.7 2.1 5.1 3.3 3.6 4.9 2.9 0.8 3.3
(三)相对比型指标
任何两个相关联的变量A与B之比
A 相对比型指标 B
• 相对于B的一个(或十个、百个、千个等)单
位,A有多少个单位 • A和B可以是绝对数,也可是相对数 • A和B的量纲可以不同,也可相同,但A和B互 不包含
(四)应用相对数应注意的事项
1. 防止概念混淆 不少指标命名混乱: “某某率”满天飞! • 某些指标,实质上只是相对比,其名称却是 某某率; • 更多指标以某某率的模式命名,笼统地称它 们为“率” ----分不清究竟是频率还是强度
主要内容
三类相对数指标 医学人口统计常用的指标
一、常用的相对数指标
• 除了用频率分布全面反映一个定性变量外,有时, 也可用其它相对数指标从某个侧面来描述定性 变量。
相对数指标大致有三种类型: 频率 (Frequency)有的书称比率(Proportion) 强度 (intensity)有的书称速率(rate) 相对比 (ratio)
用于探讨疾病的危险因素,评价疾病防治效果。
2. 计算相对数时分母应有足够数量 例 甲医院治疗某类患者100人,40人有效; 乙医院治疗同类患者5人,2人有效 有效频率均为40% !?
如果资料的总例数过少,计算得到的相对数 偏差可能会很大,直接报告原始数据更为可取: 甲医院有效率40% 乙医院有效 2/5
变异系数 3.2% 0.3%
描述分布形态的统计指标
1、偏度系数: coefficient of skewness
2、峰度系数:coefficient of kurtosis
正确应用(1)
• 算数均数:适用于对称分布资料; • 几何均数:适合于对数正态分布资料; • 中位数和百分位数:适用于任何分布的资料; • 中位数和百分位数在样本含量较少时不稳定,越靠 两端越不稳定;因此,当资料适合计算均数或几何 均数时,不宜用中位数表示其平均水平。
第三讲 描述离散趋势的指标
Outline 主要内容
描述离散趋势的统计指标
描述分布形态的统计指标
只用平均数描述资料的弊病
• 甲组 26 29 30 31 34 • 乙组 24 27 30 33 36 • 丙组 26 28 30 32 34 甲
乙
均数30kg 均数30kg 均数30kg
丙
24 26 28 30 32 34 36
2
X
N
( X X )2 ∑ n 1
样本方差 S
2
X X =
2
2
n
n 1
只能取正值;
方差越大,意味着个体间变异越大;反之亦然。
描述离散趋势的指标4:标准差
标准差(standard deviation) ,方差的平方根
总体标准差
( ∑X ) N
596 人 院内感染率 0 . 0047 人 / 人 日 127859 人 1日
平均每天有0.47%的病人将在医院发生感染。
一般地,
某事件发生的个体数 强度型指标 K (可能发生某事件的个体数 时间)
其中比例基数K同上。
• 分母含有“时间”,并不是一般的速率,而是单位时 间内的频率。 统计学和流行病学本质:频率强度或概率强度的近似 值。
粗死亡率的定义式近似地写成
粗死亡率 同年内死亡人数 K 当年平均人口数 1年
粗死亡率
同年内死亡人数 K 当年年中人口数 1年
以上说明同样适用于年龄组死亡率、粗出生率和粗发 病率等,不再赘述。