医学统计学第一章 医学统计中的基本概念1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。
2 资料的类型:计量资料(数值变量),计数资料(无序分类),等变异(variation ):在同质的基础上被观察个体的差异。
级分组资料(有序分类)。
3 同质(homogeneity ):对研究指标有影响的非实验因素相同。
4 总体(population ):根据研究目的确定的同质的全部研究对象称总体 。
样本(sample ):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。
5 参数(parameter ):总体的设计指标称为参数。
统计量(statistic ):样本的统计指标称为统计量。
6 变量(variable ):观察对象的特征或指标称为变量,测量的结果即为变量值。
7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。
第二章 集中趋势的统计描述一 算术均法(mean )简称为均数,适用于正态或近似正态分布资料 (一)直接法 Xnxn X X X n ∑=+⋯++=21(二)加权法(针对频数表)nfx nx f f f X k k ∑=+++= (21)二 几何均数(geometic mean,G )适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度,血清凝集效价,细菌计数,某些物质浓度等)G=nn X X X ⋯21 为了计算方便,常改用对数的形式计算,即=G lg 1-(nX ∑lg )对于频数表资料,可用公式 G=lg1-(nx f ∑lg )三 中位数(M )和百分位数中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+(MLf f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距和频数,L f 为M 所在组段之前各组数的累积频数。
百分位数:用符号X P 表示,x 即百分位公式:x P =L+(xLf f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距和频数,L f 为x P 所在组段之前各组段的累积频数第三章 变异程度的统计描述1.衡量.变异程度的指标有:极差,四分位数间距,方差,标准差,变异系数。
2.极差(range )也称全距,即观察值中最大值和最小值之差,用符号R 表示。
3.四分位数间距(quartile )用符号Q 表示,可以通过计算百分位数75P 和25P 之差得到,即Q=2575P P -,适用于偏态分布资料,特别是末端没有确定数据的资料(常与中位数一起用)。
4.方差(varience )适用于正态分布,标准差是将方差取平方根,反映一组观察值的离5.散程度,标准差小,离散程度小,均数代表性好(方差和标准差常与均数一起用)。
6.变异系数(coefficient of variation,CV )常用于度量衡单位不同或均数相差悬殊的两组资料的变异程度,其计算公式为:CV=XS%100⨯(CV 可能大于1,等于1,小于1;S 为标准差,X 为均数)7.正态分布的主要特征:1)正态分布以均值μ为中心,左右对称;2)曲线下面积集中在以均值μ为中心的部分,越远离中心,曲线越接近X 轴,曲线下面积越小;3)正态曲线下的面积分布有一定规律;4)正态分布完全由参数μ和σ决定,μ是位置参数,σ是变异参数,σ越大,表示数据分布越分散。
8.标准正态分布(standard normal distribution )是均数为0、标准差为1的正态分布,表示为N(μ,σ2)9.对任何参数μ和σ的正态分布,都可以通过一个简单的变量变换成标准正态分布,即μ=X-μ σ10.医学参考值范围(reference value range )传统上称作正常值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。
习惯上是包含95%的参照总体的范围。
第四章 抽样误差与假设检验1.抽样误差(sampling error ) :在抽样的过程中由于个体差异造成的样本统计量与总体参数之间的差异。
2. 标准误 (standard error ):样本均数中用来衡量抽样误差的大小用符号σx 表示,计算公式为σ-x =nσ(标准误小于原始测量值的标准差,标准误越小说明估计越精确,因此可以用标准误表示抽样误差的大小)实际工作中标准差 σ往往未知,因而通常用样本标准差S 代替σ,求得样本均数 准误估计值S -x ,计算公式为 S -x =nS(当n →无穷,S →σ,S -x →0)3 95%的可信区间的计算:x (μ,σ2x) 1) σ已知,可信区间=-x ±1.96σx2)σ未知,n 为小样本:x ±tx v S ⋅),2/05.0(3)σ未知,n 为大样本:X S x 96.1±T 变换 μ变换N (0,1)3、t 分布曲线的形态变化与自由度v=n-1有关。
4、假设实验的基本步骤:1)建立假设和确定检验标准 包括无效假设(符号为H 0)和备择假设(符号为H 1)【H 1是在H 0成立证据不足的情况下而被接受的假设,有双侧和单侧两种情况,未作说明时,选用的均是双侧检验】 检验标准用α表示,一般取α=0.5或α=0.01. 2)选择检验方法和计算检验统计量 3)确定P 值和作出统计推断结论【结论:P>α,不拒绝H 0,差别无统计学意义,还不能认为两总体均数不等;P<α,拒绝H 0,接受H 1,差别有统计学意义,结论是两总体均数不相等】 第五章 t 检验1.t 检验的应用条件要求样本来自正态分布总体,两样本均数比较时,还要求两总体方差相同,即具有方差齐性。
2配对样本均数t检验公式:t=--dS d =nS d d-自由度:ν = 对子数 - 13 t 检验统计量u 值的计算公式:222121212121n s n s XX s X X u X X +-=-=-4.假设检验中两类错误:第一类错误(Type I Error )”弃真”原假设为真,而拒绝了它;第一类错误记为 a ,称为检验水准 第二类错误(Type II Error )”存伪”原假设为假时却接受了它;第二类错误的概率记为 b第五章 方差分析1.与前面讲过的假设检验不同的是用于比较两个或两个以上均数的差别。
2.总变异SS 总、组间变异SS 组间和组内变异SS 组内之间关系: SS 总= SS 组内+ SS 组间 ν总= ν组内+ ν组间3.第七章 相对数及其应用1.率 (rate )—— 表示某种现象发生的频率和强度,通常以百分率(%)、千分率(‰)、万分率(/万)、十万分率(/10万)表示。
率=有可能数某事物或现象发生的所际概率某事物或现象发生的实×比例基数2.构成比(constituent ratio ):表示某一事物各组成部分所占的比重或分布的情况. 构成比通常以100%为比例基数. 计算公式:构成比=观察单位总数同一事物各组成部分的位数某一组成部分的观察单×100%特点:各组成部分的构成比之和为100% 某一部分比重增大,则其它部分相应减少。
3.相对比(relative ratio )是两个有关指标之比,用以描述两者的对比水平,常用R 表示 R=A 指标/B 指标 A>B 结果多用倍数表示; A<B 结果多用百分数表示两指标互不包含,可以是相对数,绝对数,平均数,可以性质不同,不一定有相同的量纲 4.应用相对数时的注意事项:1)不要把构成比与率相混淆2)使用相对数时分母不宜过小3)注意资料的可比性4)要考虑存在抽样误差5.标准构成的选取:1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。
如世界的、全国的、全省的数据为标准构成2)取比较各组的各层例数的合计为标准构成。
3)从比较的各组中任选其一的构成作为标准构成。
6.率的标准化的注意事项:1).标准不同得到的标化值不同,但得出的结论是一致的.2).标完全随机设计方差分析表变异来源SS ν MS F 总变异 )(或总1)(22--∑∑N S X X ij ji 1-N 组 间 (处理组间)2)(X X n i i i -∑ 1-k 组间组间νSS 组内组间MS MS 组内(误差) 组间总SS SS - k N - 组内组内νSS化后的数值不再反映实际水平,只能表明相互比较资料间的相对水平。
3).两组率各分组对应的率有明显交叉时,则不能用标准化率进行比较.4).两样本标准化率存在抽样误差。
比较两样本的标准化率应该做假设检验。
7.率的标准误(样本率为P ,总体率为π):8.正态近似法的条件:当n 足够大,且nP 和n(1-P)均大于5时,P 的分布接近正态分布,可用公式来求总体率的可信区间:(P-u 2a S P ,P+u 2a S P )第八章 χ2检验1. χ2检验常用于检验两个或多个率(或构成比)之间差别是否有统计学意义,可用于检验配对计数资料差异有无统计学意义及两种属性或特征之间是否有关系,还可做频数分布资料拟合优度检验。
2. 四格表专用公式(3对于四格表资料,通常规定为:(1)当n ≥40且所有的T ≥ 5时,用检验的基本公式或四格表的专用公式;(2)当n ≥ 40 但有1≤T <5时,用四格表资料的校正公式;(3)当n <40,或T <1时,用四格表资料的Fisher 确切 概率法。
4 行×列表资料的χ2检验: 自由度:ν=(行数-1)(列数-1)5 注意事项:(1)不能有1/5的理论频数小于5,或有理论频数小于1。
(2)行×列表检验有统计学意义,并不等于任意两组之间都有统计学意义,要继续做两两比较。
(3)在实际应用中,对于行×列表资料要根据其分类类型和研究目的用恰当的检验方法,行×列表资料的卡方检验与分类变量的顺序无关。
第十章 线性相关与回归1线性相关分析(linear correlation analysis ):研究两个服从正态分布的随机变量间有无直线相关关系,关系的方向及关系的密切程度。
2 线性相关系数r 没有测量单位,其数值在-1和1之间,相关系数的绝对值 愈接近1,相关愈密切;相关系数愈接近0时,相关愈不密切。
自由度:ν=n-2 a b c dnP P Sn P P )1()1(-=-=ππσ22()ad bc nχ-=3 线性相关的步骤:1)绘制散点图2)求相关系数r3)假设检验(H 0:ρ=0)或查找b 界值表4)得出结论4 线性回归(linear regression ):用直线回归方程来描述两个变量X 和Y 数量上依存关系的一种统计分析方法。