人群健康研究的统计方法
2 2、行×列表资料的 检验
① 多个样本率比较时,有R行2列,称为R ×2表;
② 两个样本的构成比比较时,有2行C列,称2×C表; ③ 多个样本的构成比比较,有R行C列,称为R ×C表。
(1)多个样本率或两个构成比比较的2检验
三种疗法有效率的比较
疗 法 物理疗法 药物治疗 外用膏药 合 计 有效 199 164 118 481 无效 7 18 26 51 合计 206 182 144 532 有效率 (%) 96.60 90.11 81.94 90.41
2.同质与变异
同质:除了实验因素外,影响被研究指标 的非实验因素相同被称为同质。
变异:在同质的基础上被观察个体之间的
差异被称为变异。
3、参数与统计量 parameter and statistic
参数:总体的统计指标, 如总体均数、标准差,采
总体 参 数
抽取部分观察单位 样本
用希腊字母分别记为μ、
8
12
正常血压
轻度高血压
计量资料
15
中度高血压
17 重度高血压 以12kPa为界分为正常与异常两组,统计每组例 数
计数资料
实例数据
第八章 数值变量资料的 统计描述
一、计量资料的统计描述
平均指标(算术均数、几何均数、中位数)
变异指标(极差、百分位数与四分位间距、 方差、标准差、变异系数)
描述:随着年龄的增加,白内障患病率增加,80岁 人群达86.36%
2.构成比
概念: 说明某事物内部各组成部分在总量中 所占的比重.一般为构成比、百分比。 计算通式:
事物某部分的例数 某部分构成比 100% 同一事物各部分的总例数
例:某地中老年人白内障的患病情况
年龄组 (岁) 40506070≥80 合计 受检 人数 560 441 296 149 22 1468 白内障 患者 68 129 135 97 19 448 患者 构成比% 15.18 28.79 30.13 21.65 4.24 100.00 白内障 患病率% 12.14 29.25 45.61 65.10 86.36 30.52
叫定性数据
3.等级资料半定性或半定量的观察结果。有大小顺序,所
以也叫有序分类资料(ordinal category data)。
①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: , ,++,+++及以上
三类资料间关系
例:一组2040岁成年人的血压值
<8 低血压
等 级 资 料
1、平均指标
1. 算术均数(mean):适用条件:资料呈对称分布, 一般用于正态或近似正态分布。
2. 几何均数(geometric mean)。适用条件:呈倍
数关系的等比资料或对数正态分布资料。
3. 中位数 (median)。适用条件:适合各种类型的
资料。尤其适合于①大样本偏态分布的资料; ② 资料有不确定数值;③资料分布不明等。
Sx= S
①减小S。
n
降低抽样误差的途径有:
②增加样本含量n。
二、总体均数的估计
总体均数的点估计(point estimation)与区间估 计(interval estimation)
点估计:由样本统计量
X 、S
参数的估计
直接估计总体参数 、
区间估计:按预先给定的概率(1-) 所确定的、包含未知参数的一个范围, 这个范围称为参数的可信区间( Confidence interval,CI)
三、 医学参考值范围的制定
1. 意义:医学参考值是指包括绝大多数正常人 的人体形态、机能和代谢产物等各种生理及生化指
标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数而
是在一定范围内波动,故采用医学参考值范围
( medical reference range )作为判定正常 和异常的参考标准,但不是“金标准”。
3、多个样本均数间的多重比较
当方差分析的结果为拒绝 H0 ,接受
H1时,只说明g个总体均数不全相等。
若想进一步了解哪两个总体均数不等, 需进行多个样本均数间的两两比较或
称多重比较。
多重比较不能用两样本均数比较 的 t 检验!
若用两样本均数比较的t检验进行多
次重复重比较,将会加大犯Ⅰ类错误
(把本无差别的两个总体均数判为有差 别)的概率。
2.变异指标
反映数据的离散程度。即个体观察值的变
异程度。
1.
2. 3. 4. 5.
极差 (全距)
四分位数间距 方差 Variance 标准差Standard Deviation 变异系数 CV
变异指标小结
1.极差较粗糙,适合于任何分布 2.标准差最常用,适合于正态或近似正态分布 3.变异系数主要用于单位不同或均数相差悬殊资料
第七章 医学统计学的基本 概念和步骤
一、统计学基本概念
1.总体与样本 2.同质与变异 3.参数与统计量 4.误差 5.概率与频率
1.总体与样本
总体:根据研究目的而确定同质 观察单位的全体。
样本:从总体中抽取的部分观察 单位。
随机抽样 random sampling
为了保证样本的可 靠性和代表性,需 要采用随机的抽样 方法(在总体中每 个个体具有相同的 机会被抽到)。
推断inference
统计量
σ。是固定的常数。
统计量:样本的统计指标,如样本均数、标准差,采用拉丁 字母分别记为
X、S
。 在参数附近波动的随机变量 。
4、误差(error)
误差:实际观察值与客观真实值之差 (1)系统误差 (2)随机误差
真值
血压计 测定值
。 。。 。。 。 。 。 。 。 。。
随机 误差 85 90mmhg
2、随机区组设计
(1)随机分组方法
先按影响试验结果的非处理因素(如性别、
体重、年龄、职业、病情、病程等)将受试对
象配成区组,再分别将各区组内的受试对象随
机分配到各处理或对照组。
(2)统计方法选择
1. 正态分布且方差齐同的资料,应采用两因素 方差分析(two-way ANOVA) ; 2. 当不满足方差分析时,可采用随机区组设计 资料的Friedman M 检验。
1.正态分布法 2.百分位数法
第九章 数值变量资料的
统计推断
一、均数的抽样误差与标准误
抽取部分观察单位
抽样误差
样本
总体
统计推断
参 数
如:总体均数
统计量
如:样本均数 X 样本标准差S
总体标准差
(sampling error) :由于个体变异产 生的、抽样造成的 样本统计量与总体 参数间差异,称为 抽样误差。
4.平均指标和变异指标分别反映资料的不同特征,
常配套使用 如 正态分布:均数±标准差 x s 偏态分布:中位数(四分位间距)
二、正态分布
图形特点:
钟型(中间高,两头低,左 右对称,以X轴为渐进线) 最高处对应于X轴的值就 是均数 两个参数:位置参数和 形态参数。
曲线下面积恒为1或100%。
男
用药 试验组 对照组 有效 20 10 无效 10 15 有效 10 15
女
无效 10 20
反映用药与疗效、性别与疗效的关系。
二、 常用相对数
1.定义:是两个有关的绝对数之比,统称为
相对数。
相对数的意义:
消除基数影响,便于事物间的比较。
给出事物发生频率(强度)的估计。
相对数是工作决策的依据。
人之一,英国人K . Pearson(1857-1936)于1900
年提出的一种具有广泛用途的统计方法,此方法
以χ 2分布为理论依据,可用于两个或多个率间的
比较,计料的卡方检验
表 组 别 两组降低颅内压有效率的比较 有效 无效 合计 有效率 (%)
试验组
对照组 合 计
心理反应 焦虑 抑郁 自我认同紊乱 恐惧 合计 病例数 102 57 10 5 174
反映该指标(心理反应)分类的分布
2.两因素交叉频数表
分组 ( X) A药组 B药组 不同用药与疗效的关系 疗效(Y) 有效数 无效数 合计 20 30 50 10 40 50
3.两因素以上的交叉分组表
不同用药、性别与疗效的比较
3.相对比
相对比:反映两个指标(指标可为绝对数、相对数;性质 相同或不同)相比的倍数或百分数。
甲指标 相对比 (倍数或百分数%) 乙指标
例:某医院出生性别比=男性婴儿数/女性婴儿数 =370/358=1.03(或 103%) 医护比=医生人数/护士人数
第十一章 分类变量资料 的统计推断
χ 2检验(Chi-square test)是现代统计学的创始
99
75 174
5
21 26
104
96 200
95.20
78.13 87.00
四格表专用公式
组 别 阳性 阴性 合计
A组
B组 合 计
2
a
c ( a+ c)
b
d ( b+ d)
2
( a+ b)
( c+ d) (n)
(ad bc) n (a b)(c d )(a c)(b d )
2.配对样本t检验
3.两样本t检验
四、方差分析
1、完全随机设计
2、随机区组设计
1、完全随机设计
(1)设计
将全部试验对象随机分配到 g 个处理组, 各组分别接受不同的处理,试验结束后比较 各组均数之间的差别有无统计学意义,推论 处理因素的效应。
(2)统计分析方法选择