常见的几种统计方法分解
2检验的适用资料
两组样本率的比较;
多组样本率的比较;
两组或多组构成比的比较;
配对设计下两分类资料检验。
一、四格表资料的检验
四格表资料的检验主要用于两个样本 率(或构成比)的假设检验,一般制 成表 6-2 的计算格式(以阳性和阴性 为例)。
表6-2
四格表资料检验计算表
组 别 甲 组
阳性数
阴性数
(二)收集资料
(二)资料要求 1.完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。可以是一 个体,亦可以是一个单位、家庭、地区,一批样品, 一个采样点。 2.准确:即真实、可靠。真实是统计学的灵魂。 3.及时:即时限性。如人口普查规定调查开始日期 和截止日期。
(三)整理资料
整理资料即原始数据的条理化、 系统化的过程。所采取的手段→合 理化分组,目的→实现专业目标。 质分组:按事物的属性或性质分组 →分类变量; 量分组:按数据的大小→数值变量。
伪造统计数据违反科学道德
1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况 (2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
设计 收集资料 整理资料 分析资料
(一)设计
1.专业设计:选题、建立假说、确定 研究对象 设类型、
60 年代到 80年代,国外医学杂志调查表明: 20%~72%的论文有 统计错误。 1984 年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为: 相对数误用占 11.2%,抽样方法误用占 15.9%,统计图表误用占 11.7% 1996年对4586篇论文统计(中华医学会系列杂志占 6.9%),数 据分析方法误用达55.7%。 2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
验和观察结果存在的差异和关联作出统计推断 。
工作生活中常见的统计学问题
如何判断药物的疗效?(假设检验) 明天是否下雨?体育彩票能否中奖? (概率论) 子女为什么象父母,其强度有多大? (相关与回归) 美国的民意测验是如何进行的?(设计, 抽样) 中国的市场调查的可信性有多大?(现 场调查) 统计学是对令人困惑费解的数字问题 做出设想的艺术。
一、医学统计学概述
定义
是用统计学原理和方法研究生物 医学问题的一门学科。医学统计方法 在医学研究中的运用主要有三个方面:
一、医学统计学概述
②描述数据的统计特征,如数据化简、统计指标的选
①以正确的方式收集数据,如实验设计、调查设计等。
择与计算、统计结果的表达等。
③统计分析及得出正确结论,如根据概率分布,对实
疗效 90人 疗效 85人
据此能否立即 下结论,呋喃 硝胺的疗效高 于西米替丁?
冠心灵与单纯西药 疗效对比
显效 单纯西药 冠心灵 9 19 有效 25 18 无效 6 5 合计 40 42
问题:某医师用“冠心灵”治疗 冠心病,其疗效是否优于单纯西药?
Hale Waihona Puke 授课提纲 医学统计学概述 统计工作的基本步骤 统计资料的类型 医学统计中的基本概念 常用的几种统计方法
合计
a
b
a+b
乙 组
合 计
c
a+c
d
b+d
c+d
a+b+c+d=n
X2检验的基本公式为
• 条件:n>40, T>=5
2
A T
T
2
理论频数T
TRC
n R nC n
四格表检验专用公式
省去计算T值
n (a b)(c d )(a c)(b d )
2
ad bc
2 A 2 n n n 1 R C
式中n为总例数, A 为每格子的实际频数,nR 、 nC 分别 为与某格子实际频数(A)同行、同列的合计数。
行×列表资料的检验的注意事项
1. 理论数不宜太小,一般不宜有1/5以上 格子的理论频数小于5,或有一个理论频 数小于1。对理论数太小有三种处理方法: ①最好增加样本含量以增大理论频数;根 本的方法。 ②删去理论频数太小的行和列;此法不好。 ③将理论频数较小的行或列与邻行或邻列 合并以增大理论频数。但后两法可能会损 失信息,
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
观察值:测得的白细胞数
同质: 同一地区、同一年份、同为正常成人 全体:该地2002年全部正常成人白细胞数
四、统计学中的基本概念
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
计量资料
每人的血压:以mmHg计
以舒张压≥90mmHg为高血压,结果在1000 人中有10名高血压患者,990名非高血压患 者,整理后的资料 计数 资料 按低血压、正常、高血压分 组所得资料。 等级资料
四、统计学中的基本概念
(一)总体与样本 1、总体(population) 根据研究目的所确定的同质的所有 观察单位某项变量值的集合。
医学论文中的统计学问题
60年代到80年代,国外医学杂志调查结果: 有统计错误的论文20%~72%。 1996年对4586篇论文统计(中华医学会 系列杂志占6.9%),数据分析方法误用达 55.7%。
1996年,有机构对申报科技成果的4586篇科研论文分析, 统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性,还可 能导致严重的伦理学问题。
和技术方法等→个性
2.统计设计:围绕专业设计确定统计 方法。 样本大小、分组方法、统计分析指标及统计分析
(二)收集资料
(一)资料来源 第一手资料 ① 经常性:统计报表(死亡登记、 疫情 报告等),工作记录(病历、 化验); ② 一时性:专题调查、实验或临床 试验。 第二手资料:已公布的资料,如全国、 全省卫生统计资料。
3. 等级资料
定义: 介于计量资料和计数资料之间的一种资 料,通过半定量方法测量得到。 特点: 每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不同。 ①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
资料的类型
计量资料
对每一观察对象 用定量的方法, 测定某项指标所 得的资料。一般 有度量衡单位, 每个对象之间有 量的区别。
(二)变异:同质基础上个体值之间 的差异,称为变异。 同质:指观察单位或观察指标 受共同因素制约的部分。
例如,同种族、同年龄、同性别的健康人, 在相同的条件下测其脉搏、呼吸、体温等 生理指标可以有很大差异。
四、统计学中的基本概念
(三)参数和统计量 1.参数:总体指标。 2.统计量:样本指标。 (四)抽样误差 1.定义:在统计学上把由抽样造成的 样本统计量和总体参数之间的差异或 者是各个样本统计量之间的差异统称 为抽样误差。
四、统计学中的基本概念
(五)概率 概率:是描述随机事件发生 的可能性大小的数值。 (1)必然事件: P(A)=1 (2)不可能事件: P(A)=0 (3)随机事件(偶然事件):0< P(A)<1 (4)小概率事件:P≤0.05 或 P≤0.01
t检验不是处理计数资料的万能方法
卡方检验不是处理计数资料的万能方法
四格表值的校正
条件: ( 1 )任一格的 1≤T < 5 ,且 n≥40 时,需计算校 正值。 (2)任一格的T<1或n≤40时,用确切概率计算 法。
基本公式
2
AT
0.5
2
T
2
专用公式
2
ad bc n 2 n
(a b)(c d )(a c)(b d )
卡方检验
秩和检验或Ridit分析
原则:选择最恰当的统计指标准确描述资料的特征。 正态分布 计量资料 非正态分布
X S
Md , ( P25 , P75 )
计数资料
率或比
X2检验
X2 检验或称卡方检验,是一种用途较 广的假设检验方法,常用于检验两个 或多个样本率及构成比之间有无差别, 还用来检验配对定性资料及两种属性 或特征之间是否有关系等。
2 2 2
2
20
80
24
96
4.125
14 90 86 30
2
220 4.125 100 120 44 176
2
结果判断
X2临界值:X20.05,1=3.84, 请记住 : X2 0.01,1=6.63, X2=u2 本例 : X2=4.125> X20.05,1=3.84, 两组差 别有统计学意义。与前面的结论相同。
2
例6.7
以例6.6资料为例
表6-3 用药组和对照组流感发病率的比较
组 别 发病人数 未发病人数 合计
用药组
对照组 合 计
14(20)
30(24) 44
86(80)
90(96) 176
100
120 220
两种方法计算结果
2
14 20 86 80 30 24 90 96
双向无序,两个分类变量皆为无序分类变量,一般
用卡方检验。
单向有序资料,采用秩和检验。 双向有序且属性相同,研究目的通常是分析两种检 测方法的一致性,此时应用一致性检验。 双向有序属性不同,根据具体情况可选择秩和检验, 等级相关分析或者线性趋势检验。