当前位置:文档之家› 生物医学统计学

生物医学统计学

统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。

变量(variable):就是反映个体特征或属性的量.变量值(variable value):变量的观察结果或测量值。

定量变量quantitative variable/数值变量numerical variable 定性变量qualitative variable/分类变量categorical variable同质(homogeneity)是指被研究指标的影响因素相同。

但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。

因此,在实际工作中只有相对的同质。

变异(variation):同质基础上的各观察单位间的差异称为变异。

总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。

样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。

参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。

统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。

误差:指测量值和真实值之间的差别准确度(accuracy) :观察值与真值的接近程度,受系统误差的影响。

可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。

概率:是描述随机事件发生的可能性大小的一种度量,常用P表示。

0≤P≤1 随机事件P=1 必然事件P=0 不可能事件P≤0.05或P≤0.01为小概率事件统计工作的基本步骤: 统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。

原则:及时、准确、完整。

),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。

1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。

相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆, 分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。

4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。

率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。

构成比表示某一现象内部各组成部分所占的比重或分布。

特征1各组成部分的构成比之和为100% 2某一部分构成比增大或减小,必然使其它部分产生相应的变化。

注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。

率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平。

正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。

当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。

正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。

3.正态分布的图形由均数和标准差两个参数决定。

位置参数μ;变异度参数σ4. 正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1. 制定医学参考值范围2. 估计频数分布3. 进行质量控制4.正态分布是许多统计方法的理论基础二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。

性质与特征⑴形态取决于π和n:当π接近0.5时,分布对称,π离0.5越远,分布对称性越差;但当n增大时, 分布趋于对称。

⑵高峰在μ=nπ处⑶二项分布的总体均数μ=nπ,方差为4当nπ>5,且n(1- π)>5时,二项分布趋于正态分布。

Poisson分布Poisson分布是一个重要的离散型概率分布。

一般地,Poisson分布应用于观察例数n很大、而π发生的概率很小的情况。

特性1)Poisson分布属于离散型分布,λ是Poisson分布的总体参数,也是惟一的参数。

(2)方差σ2与均数λ相等,即σ2= λ。

这是Poisson分布的一个非常重要而且非常独特的性质,经常用于判断某随机事件是否服从Poisson分布。

(3)设X1~P(u1)且X2~P(u2),并且X1与X2相互独立,则Y=X1+X2 服从总体均数为u1+u2的Poisson分布抽样误差:由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别样本均数的标准差(简称标准误,standard error)是描述均数的抽样误差大小的指标。

区间估计:根据抽样误差的规律,按一定的概率估计总体均数的所在范围。

统计上习惯用95%或99%可信区间表示总体均数可能所在范围。

总体均数的95%置信区间表示的实际涵义是:如果从同一总体中重复抽取100份样本含量相同的独立样本,每份样本分别计算1个置信区间,在100个置信区间中,将大约有95个置信区间覆盖总体均数,大约有5个置信区间并不覆盖总体均数。

假设检验(hypothesis test)亦称显著性检验(significance test),先对总体的参数或分布作出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等,然后选用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。

原理:在抽样研究中,由于抽样误差的客观存在,使得从同一总体中随机抽取的样本含量相等的若干个样本均数往往不相等。

根据正态分布原理,在100次(n相等)抽样中,理论上将有95个u值小于1.96,仅有5个u 值大于或等于1.96。

当进行一次抽样研究时,若依据该样本均数算得的u值小于1.96,则表明从该总体中抽得此样本的可能性将大于5%(P大于0.05),因此可认为此样本来自该总体;若算得的u值大于1.96,则表明从该总体中抽得此样本的可能性将小于或等于5%(P≤0.05),这种小概率事件在一次抽样中是不大可能发生的,因此可认为此样本不是来自该总体。

步骤1提出无效假设和备择假设,规定显著性水平2确定并计算检验统计量3确定P值,作出统计推断结论小概率在一次试验中,一个几乎不可能发生的事件发生的概率,由研究者事先确定。

第一类错误(弃真错误)拒绝了实际上存在的H0,第一类错误的概率为α.第二类错误(存伪错误)不拒绝实际上不存在的H0,第二类错误的概率为 β(Beta) 掌握两独立样本定量资料的统计分析思路:两样本均来自正态总体且总体方差齐时用t 检验;两样本来自正态总体但总体方差不齐时用t‘检验或秩和检验。

当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验。

掌握配对设计的含义及两配对样本定量资料的统计分析思路:对于配对设计定量资料的统计分析,若差值服从正态分布,可采用配对t检验;否则,采用配对资料的符号秩和检验。

秩和检验的优缺点优点:①适用范围广。

②对数据要求不严。

缺点:对于符合参数检验的资料如果用秩和检验,由于没有充分利用资料提供的信息,故检验效能低于参数检验,若要使检验效能相同,往往需要更大的样本含量。

因此,在实际工作中对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;若不能满足参数检验条件的资料,应选用秩和检验。

单因素方差分析的基本思想和模型假设模型条件1独立性:各样本是相互独立的随机样本2正态性:各样本来自正态分布3方差齐性:各样本方差相等,即方差齐步骤1.建立假设,确定显著性水平H0 :μ1= μ2 = μ3 =…H1 :总体均数不等或不全相等α=0.05. 2.计算统计量F3.求概率值P,做出推论在多组定量资料比较时,ANOV A 是一种常用的方法。

但ANOV A只能说明多个总体均数总得来说有无差别,若想进一步了解到底哪哪两个组之间有差别,还需做两两比较。

单因素方差分析要求各样本均来自正态总体且总体方差齐,当数据来自偏态分布或总体方差不齐时,采用变量变换或秩和检验(Kruskal-Wallis Test)其基本思想和两独立样本一样(wilcoxon rank sum test),只是在编秩时将所有数据混在一起编秩,然后分别计算各组的秩和。

卡方检验基本思想是检验实际数A与理论数T的差别,是否由抽样误差引起?如果H0假设成立,A与T之差一般不会太大,认为A与T之间的吻合程度高,出现大χ2值的概率是很小的;若P≤α,A与T相差较大;吻合程度差,就怀疑检验假设成立,作出拒绝H0,接受H1的推断。

行×列表没有校正公式,使用条件:不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5。

条件不足时有三种处理方法。

①增大样本例数使理论数增大;②删除理论数太小的行或列;③将邻近的行或列合并,增大理论数(但注意合理性)。

R×C表的χ2检验注意事项1若表格内有一个方向按多个等级分类,则称为单项有序行列表,当等级数大于3时,一般用秩和检验分析更为合适。

2列联表资料要求理论数小于5不能太多,不能超过总格子数的1/5,根据专业知识是否能合并或增大样本含量。

简单相关分析的方法步骤(一)绘制散点图,看有无线性关系(二)估计简单相关系数r(三)检验简单相关系数ρ是否有统计学线性相关分析注意事项(一)当两变量有线性趋势时,才能进行线性相关分析。

一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。

(二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。

(三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析四)异常点的存在对相关分析往往有影响,要特别注意。

(五)分层资料盲目合并容易引起假象秩相关分析秩相关又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知;数据一端或两端有不确定值的资料或等级资料。

Pearson积差相关系数适用条件:双变量正态分布资料。

表示方法:r注意事项:不可用相关系数检验所得P值的大小来判断有否线性关系。

一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。

Spearman秩相关适用条件:不满足正态分布的两变量随机样本—等级资料表示方法:rs简单线性回归分析回归模型的基本假设1.线性(linear) 指反应变量Y的总体平均值与自变量X呈线性关系。

相关主题