健康统计分析与应用
2
2
x
N
2
s
x x
n 1
2
s
2
x x
n 1
2
n 1
自由度:随机变量能自由取值的个数
1、直接法
s
x x n
2
2
n 1
2、间接法(频数表法)
s
fx n f 1
2
fx
2
4、变异系数
• 适用于两组单位不同或均数相差较悬殊的资料 其离散度进行比较时
i p25 L (n 25% f L ) f 25
3、标准差与方差
• 适用于正态分布资料
• 标准差:描述一组数据的离散趋势,标准差越大 说明数据越分散。
s
x x n
2
2
n 1
• 如:平均数与标准差分别从两个方面来描述计
量资料的特征。
x
N
11%
29%
28% 32%
A型 B型 0型 AB型
某民族血型构成
线图(line graph):用线段的上升或下降来表示事物 在时间上的变化趋势
120 100 80 60 40 20 0 80 81 82 83 84 85 86 87
某市1980—1987年产妇产褥感染死亡率(1/10万)
直方图(histogram):用矩形面积表示连续变量的频数分布。
10.4 统计推断(均数的抽样误差)
• 标准误:
x
n
s Sx n
10.4 统计推断(总体均数的估计)
点值估计: x 区间估计: • 95%的可信区间
X t0.05,v S x
X u0.05 S x
X 1.96 S x
10.4 统计推断(均数的假设检验)
1、样本均数与总体均数比较:t检验
多变量:线性多元相关与回归分析、
logistic回归分析、cox回归、生存分析、因
子分析、判别分析、聚类分析等。
变量与变量分类
变量:用于描述(表达)个体特征的统计指标
变量值:用于表示变量的数值大小或性质
变量分类:自变量、因变量、外变量
自变量:是引起因变量变化的变量(实验因素)
因变量:受自变量影响的变量(结果、效应) 外变量:干扰变量、混杂变量
概念是学习的重要基础。
二、同质与变异
同质:性质相同的事物
变异:同质研究对象间,相同指标各不相 等的情况
一群同质研究对象间,不同个体的变异可以称为 离散趋势,可以用标准差、变异系数、方差、四分 位数间距、极差(全距)来表达
二、总体与样本
总体:根据研究目的而确定的所有同质观 察单位的全体。可分为有限总体与无限总体。
x1 x2 x3 ..... xn x n x x
n
fx x f
f1 x1 f 2 x2 f k xk f1 f 2 f k
2、几何平均数
• 适用于对数正态分布、等比级数资料
G n x1 x2 x3 xn lg x1 lg x2 lg x3 lg xn G lg n
六、频率与概率
频率:某个事件的发生率。f=m/n
概率:是随机事件发生的可能性的大小的一 个度量单位。 频率与概率的关系:多次反复测量的频率, 其数值相对稳定的后,此时的频率就是概率。
概率值:用P值来表示,概率值一般在[ 1]。
七、何谓大、小概率
肯定(绝对、必然)事件:P=1
不可能事件:P=0
十三、常用的统计图
条图 圆图 直方图
线图
散点图 统计地图
条图(bar graph):用等宽的直条长短来代表 按性质分类的资料各类别的数值大小。
45 40 35 30 25 20 15 10 5 0 甲 乙 丙
三城市某种传染病发病率(‰)比较
圆图(circle graph):用途与百分条图相同,表示事 物内部各部分的构成情况。
c+d n=a+b+c+d
c/(c+d)
(ad bc) 2 n 2 (a b)(c d )( a c)(b d )
n 2 ( ad bc ) n 2 2 (a b)(c d )( a c)(b d )
2.3.2
甲法 阳性 阴性 合计
配对x2检验
行列表的x2检验
无效 b d f b+d+f 合计 a+b c+d e+f n 有效率% a/(a+b) c/(c+d) e/(e+f)
2 A 2 n 1 n n R C
C 1R 1
十二、其他的统计方法
双变量:线性(或非线性)相关与回归
算术平均数 几何平均数 中位数
离散趋势
指标
极差 四分位数间距 方差/标准差 变异系数
统计推断
总体均数估计
假设检验
方法
t检验 u检验 F检验
10.1 统计描述(集中趋势)
• 平均数:描述一组数据的平均水平(集中趋势)
描述集中趋势的指标有:
算术平均数 几何平均数 中位数
1、算术平均数
• 适用于正态分布与对称分布资料
占的比重或分布。
事物内部某一组成部分的观察单位数 构成比 100 % 事物内部各个组成部分的观察单位总数
常用来表示疾病或死亡的顺位、位次或所占比重。 由于构成比之和为 100% ,故各构成比之间是相互制约 的,其比重的增减互有影响。
比(ratio)
又称相对比,是 A,B 两个有关指标之比, 说明 A 是 B 的若干倍或百分之几,通常用倍 数或分数表示。 比 =A÷B (或 × 100% ) 如:男性人口与女性人口比例,医护人员 与床位比等。
构成比(proportion) 比(ratio),也叫相对比
率(rate)
又称频率指标, 用以说明某现象发生的频 率或强度。
发生某现象的观察单位数 率 K 可能发生该现象的观察单位总数
K 为比例基数,常以百分率(% )、千分率(‰ )等。
构成比(proportion)
称构成指标,说明某一事物内部各组成部分所
( x )2 2 2
max
f(x)
0
µ
10.3 正态分布及应用
• 正态分布的特点: 1、均数处最高; 2、中间高、两边低、左右对称 3、两个参数:均数及标准差 4、总面积为100%,且有规律性。
10.3
正态分布及应用
• 医学参考值范围:
正常值范围 95%正常值范围: X 1.96S 99%正常值范围: X 2.58 S
2、分类资料的统计推断
率的抽样误差与标准误
总体率的估计
假设检验(u检验与卡方检验)
2.1 率的抽样误差与标准误
样本率:P
总体率:
p
1
n
Sp
P1 P n
2.2 总体率的估计
点值估计:P=
区间估计:[大样本:np和n(1-P)>5]
P S PU 0.05 P S PU 0.01
样本:是从总体中随机抽取部分观察单位, 构成的集合。 抽样:从总体中随机抽取部分观察单位的 过程。
三、为什么要抽样研究?
一般情况下总体均是无限的,或是一个有 限的数量极大的总体
没有时间、精力、金钱去研究总体 抽样研究可以省时、省力、省钱
四、统计量与参数
统计量:用以描述样本特征的统计指标。
③等级资料:将观察单位按某种属性或类别的不同
程度分组计数所得到的资料。又称半计量半计数资 料。有序分类变量资料
九、统计工作的基本步骤
设计:目的
搜集资料:客观、真实;资料来源
整理资料:系统化、条理化
分析资料:统计描述、统计分析(参
数估计与假设检验)
十
数值变量资料的统计
集中趋势
指标
统计描述 数值 变量 资料 统计
x 0 t sx
d sd n
n 1
2、配对设计资料的比较:t检验
t
n 1
3、两样本均数的比较,小样本: t检验
x1 x2 t s x1 x2
n1 n2 2
十一、分类资料的统计描述
相对数:两个指标的比
绝对数:不具可比性
1、常用的相对数
率(rate):
1
3、中位数
• 适用于非正态分布资料、频数分布的一端或两 端无确切数据的资料、总体分布不清楚的资料
M x n1
2
1 M x n x n 1 2 2 2
• 如:2、4、12、43、32、34
中位数(可用于偏态资料)
参数:用以描述总体特征的统计指标。 习惯称呼:总体参数、样本统计量
五、抽样误差与抽样研究
抽样误差:由于抽样而产生的样本统计量 与总体参数之间的差异。 抽样研究:从总体中随机的抽取部分观察 单位构成样本,研究样本的特征,根据样本 的信息,来推测总体特征。
样本推测总体包括:参数进行估计与假设 检验。
乙法 合计 阴性 b d b+d a+b c+d n=a+b+c+d
阳性 a c a+c
2
(b c) (b c)
2
b c 40
C 1R 1
2
2
( b c 1) (b c)
b c 40
2.3.3
组别 A组 B组 C组 合计 有效 a c e a+c+e