当前位置:
文档之家› 医学科研和论文撰写中常用数据处理和统计分析方法
医学科研和论文撰写中常用数据处理和统计分析方法
Mann-Whitney秩和检验
• 成组设计多个样本比较的秩和检验:H检验法(Kruskal-
Wallis法)
• 多个样本间两两比较的秩和检验 • 配伍组设计多个样本比较的秩和检验
医学统计学方法
• 运用统计学的原理和方法研究医学领域中的生物、理化、社会、心理等
因素及机体的内外环境条件对人体健康的影响,认识人群健康和疾病现 象的数量特征。/医学统计学是运用概率论和数理统计的原理、方法紧密 结合医学实践,研究医药卫生领域中资料的收集、整理、分析和推断的 一门应用学科。
定性指标可转化为定量指标,但较粗糙 。
概率 :随机事件发生可能性大小的度量。
当n逐渐增大时,频率f/n始终在一个常数左右作微小摆动,称 该常数为随机事件A的 概率,记为: P(A) 只要观察单位数足够多,可将频率作为概率的估计值。 0 P 1, P=1 必然事件, P=0 不可能事件。 小概率事件: P 0.05,表示在一次实验或观察中该事件发生 的可能性很小。 小概率原理:小概率事件在一次实验或抽样中不可能发生, 如果发生就怀疑检验假设的正确性。
– Poisson分布:二项分布的极限分布和特例,某事件发
生率非常小时(小概率事件),则事件发生数X所服从
的概率分布 – 超几何分布:
• 数值变量的分布类型
– 正态分布 – Weibull分布
t检验、u检验
• 数值变量资料假设检验的最基本最简单的方法: t检验、u检验;仅
适用于两个样本均数的比较
• t检验的应用条件:样本含量较小(n<30)、正态分布总体的随机样
• 统计资料的收集与整理 • 统计描述性
– 常用统计指标:集中趋势(算术均数X、几何均数G、中位数M、众数等)与 离散趋势(标准差S、方差S2、变异系数CV、极差R、四分位数间距Q、平均 差A等);相对数(率、构成比、动态数列);相关系数r、回归系数b、半 数效量、半数致死量;相对危险性RR以及绝对数等
样本含量
• 统计学是对研究样本进行抽象归纳的科学,没有足够的样本量就不可
能得出正确的结论,而且统计方法也有其样本量的要求。
– 医学研究实际中,通常数值变量可少些,但至少>7例才有统计学意义, 一般要>30例(<30例称小样本),最好>100例;作为分类变量,样本数 量要大些,至少>30例,一般>100例;常见病、多发病最好为几百例。这 是经验要求,具体样本含量可根据公式进行推算。
医学科研和论文撰写中常用的 数据处理和统计分析方法
重庆市卫生信息中心 孙安龙 2012.10.24
目录
• 前言 • 医学统计方法的基本概念 • 常用医学统计方法的适用条件 • 医用期刊对医学统计学的要求 • 医学统计在期刊中的正确表达
• 医学科研论文中的常见的统计学问题
• 数据的正确书写
前言
• 卫生统计在医学期刊中占有非常重要的地
卡方检验
• 分类变量资料中的应用
– 推断两个及两个以上总体率或构成比之间有无差别 – 两种属性、两种特征或两变量间相关关系是否存在 – 频数分布的拟合优度检验
• 四格表资料的卡方检验(n1+n2>40,各格T>5) • RXC列联表的卡方检验(多个率及多组构成比) • 配对资料的卡方检验 • 组内分组资料的卡方检验(逐级分组/K层组内分
• 主要内容:多元线性回归、逐步回归、判别分析、聚类分
析、主成分分析、因子分析、典型相关分析、logistic与 Cox回归分析等
统计方法的适用条件
• 各种统计分析方法都有其适应条件,在选用统计方法时,
应严格把握,充分考虑所分析的资料是否符合其适用条件。
• 计量资料在计算均数或显著性检验时,其基本条件:正态
较可用u检验或四格表的x 检验,多个样本率的比较可用行乘列的卡方检验或 2XC表的卡方检验。 – 计量资料:对于显著性检验通常有T检验和F检验 – T检验是用于两个均数问的比较:分为样本均数和总体均数的比较,两个样 本均数差别的检验,配对资料的显著性检验。 – F检验用于多个样本均数的比较,分完全随机设计的方差分析、随机区组设 计的方差分析和组内分组资料的方差分析。
组设计资料)
• Fisher精确概率检验法:一格T<1,n<40
非参数检验
• 适用条件
– 等级顺序资料 – 偏态资料 – 未知分布类型的资料 – 要比较的各组资料变异度相差较大,其方差不齐,且不易变换达到齐
性 – 初步分析 – 特殊情况
• 配对设计差值的符号秩和检验 • 成组设计两样本比较的秩和检验:Wilcoxon秩和检验、
• 方差分析应用
– 两个或多个样本均数间的比较 – 分析两个或多个因素间的交互作用 – 回归方程的假设检验 – 方差齐性检验
• 完全随机设计资料:处理间变异+组内变异(误差) • 配伍组设计资料:处理间变异+配伍组间变异+内变异(误差) • 多个样本均数间的两两比较:q检验(SNK法)
• 多个实验组与一个对照组均数间的比较: q’检验(Dunnett t检验)
位。任何科研设计、实验研究都离不开统 计方法,而统计方法的正确与否直接影响 到论文的质量。
• 我们在编审稿件过程中,经常遇到统计学
方法使用不当等问题。
几个基本概念
• 变量:数值变量(定量变量)、分类变量
(定性变量):无序分类、有序分类(等 级/半定量)
• 概率:随机事件、概率、频率与概率的关
系(样本含量大到总体时,频率就等于概 率)
混杂因素
• 任何一种现象的发生都不是单纯的,要受多种因素的影响。当
分析比较不同人群某现象的发生或存在状况时,要考虑除研究 因素以外比较组之间其它条件是否相同,内部构成是否一致, 其它因素对研究现象的影响如何。
• 混杂因素应在研究之前通过研究对象选择、设立对照、随机、
匹配、双盲法等控制,但如果事先没有良好设计,则通过统计 方法可以控制。若资料内部构成不同,存在混杂因素,简便方 法是分组比较或标化处理。若样本量不允许分组,则对计数资 料可用组内分组的卡方检验、卡方值分割法、加权卡方检验法 等,计量资料的比个体 组成一个样本的方法。分层按比例随机抽样。
• 整群抽样法:先将总体按某个标志分成若干群,然后随机地
抽取若干群,并由抽中的群中所有个体组成样本。
几种常见的分布
• 分类变量的分布类型
– 二项分布:观察单位具有互相对立的一种结果,观察 单位的观察结果相互独立(如:治愈/未治愈、传染/未 传染)
统计学的解释
• 资料的统计处理并非是研究工作的最终目的,而是通过统
计学分析为研究结论提供依据或线索,因此对统计资料做 统计分析后,要正确把握统计学术语,对结论做科学的分 析和解释。拒绝检验假设,习惯上称有显著性,不应误解 为差别很大或在医学上有很显著的价值,统计学亦不能回 答比较样本的总体一定相等或一定不相等,因为统计推断 是以一定的概率界值为依据,说明来自同一总体可能性的 大小。应用统计学分析的目的是通过研究样本推断总体, 如果研究结论不能适当外延,则该项研究毫无意义。
• 统计推论
– 分析资料:计算标准误进行参数估计,据资料的性质选择检验方式(t检验、 u检验、卡方检验、F检验、非参数检验、Ridit分析等)
• 统计图与统计表
医学多元统计方法
• 医学现象复杂多变,如疾病的发生、病情的变化、转归、
预后等往往包含着众多因素的作用,为充分运用观察资料 的综合信息、分析其因果关系、内在联系的统计规律,作 出科学的符合实际的结论采用多因素分析的方法。
本、两总体方差齐
• u检验的应用条件:样本含量较大(n>30)或样本含量虽小但总体
标准差已知时样本均数与已知总体均数的比较及成组设计两大样本均 数的比较
• 应用
– 样本均数与已知总体均数 – 配对设计资料 – 成组设计资料两均数间
方差分析
• 方差分析的应用条件(多个样本均数的比较)
– 各样本须是相互独立的随机样本 – 各样本均来自正态总体 – 相互比较的各样本所来自的总体其方差相等,即方差齐
抽样方法
• 简单随机抽样:从总体抽取样品时,使每个个体被抽到的机
会均等,以使所抽取的样本数据能够很好地代表总体的抽样 方法。(简单/单纯):抽签法、随机数表法
• 系统随机抽样(间隔):将总体按某一标志(如时间)排序,
然后按一定间隔抽取样本单位。
• 分层随机抽样:将总体按产品的某些特征划分为若干层(即
分布、方差齐性,若不符合则需要做相应的处理。计算集 中趋势指标可使用中位数或几何均数。做统计学检验可通 过数据转换使其成为正态分布,常用的转换方式有对数转 换、幂指数转换、平方根转换等,或者改非参数检验。
• 计数资料各种方法均有其自身的适应条件,如上列举的方
法其基本条件是某一事件概率不会太小,若发生概率太低, 则改用小概率事件显著性检验。
不同类型资料转化举例(每分钟脉搏次数)
计量资料
计数资料
等级资料
75
缓 脉( <60 )
82
正常(60 ~ 100)
125
正常脉(60~100)
96
异常(<60 或>100)
56
速 脉( >100 )
变量转化只能由高级向低级转化,即从计量资料至等级资料至计数资料,但不 能做相反方向的转化。
提示: 在研究设计中,对于能测量的指标,尽可能设计为定量指标,尽 可能减少信息量的损失,并为分析过程中资料转化带来方便。
选用统计分析方法
• 不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方
法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、 意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的 目的主要有:
• 某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构