医学统计学重点精选文档TTMS system office room 【TTMS16H-TTMS2A-TTMS8Q8-医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。
4.实验设计方法有析因设计正交试验设计均匀试验设计交互作用两组:异体配对设计同体配对设计交叉设计无随机同期对照实验设计(单因素两水平)扩展多组:单因素多水平配伍组设计拉丁方设计(两因素多水平)(三因素多水平)配伍组设计:也称随机区组设计,将条件相近的受试对象配伍,每个配伍组中的对象随机分配到各处理组中。
析因设计:考察两个或两个以上的处理因素,将各个因素的水平进行全面组合,每个组合下至少有两个以上的观察对象重复测量。
一般来讲,应尽可能安排等重复试验,以简化计算,2-3个水平数。
优点是全面性和均衡性较好,可同时分析处理因素的效应及因素间的交互作用。
拉丁方设计:用于三因素等水平无交互。
第三章定量资料的统计描述、参考值范围1.频数表编制过程(了解)(1)找出样本数据的最大值和最小值,计算极差 R;(2)分组:确定分组的组距 d 和组数 k;一般n<50,5-6组;n在100左右,7-10组;n>100,10-15组(3)求频率密度:统计频数,算出频率、频率密度和累积频率;(4)画出直方图。
2.频数表和直方图的作用:用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。
3.集中趋势、离散趋势的指标及适用范围(1)集中趋势:x,G,M,P x,M0算术均数:适用于对称分布;不适用于偏态分布和资料中出现极值的资料。
几何均数:适用于呈倍数关系的资料或对数正态分布的资料,尤其是正偏态分布。
不适用与观察值中有0或正负数值同时出现的资料。
中位数:适用于大样本偏态分布或分布情况不明的资料或资料中有不确定数值的资料。
百分位数的作用:多个百分位数结合使用,全面描述数据分布的特征;用于确定医学参考值范围(偏态或分布不明的资料)。
众数:适用于大样本,较粗糙。
(2)离散趋势:极差:优点:简单明了、容易使用。
缺点:①只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。
②样本容量越大,极差可能越大。
③极差的抽样误差大,不稳定。
四分位数间距:适用于确定医学参考值范围,与中位数一起描述偏态分布资料变异程度。
缺点:类似于极差,利用度低。
方差与标准差:与均数一起描述对称分布,特别是正态分布的分布特征。
变异系数:适用于:①适用于比较度量衡单位不同资料的变异度。
②比较均数相差悬殊的资料的变异度。
③衡量实验精密度和稳定性的常用指标。
(3)频数分布特征高峰在中间,左右大致对称,称为对称分布。
平均数=中位数=众数 高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。
平均数>中位数>众数高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。
平均数<中位数<众数对称分布 正(右)偏态分布 负(左)偏态分布 4.正态分布图形的特点及意义(1)特点:①f (x )关于x=μ对称 ②x=μ时取得最大值③在x=μ±σ处为拐点,且以 x 轴为水平渐近线 ④f (x )大于0⑤P (x=a )=0⑥若 f (x) 在点 x 处连续,则F ′(x )=f (x) (2)意义:⎰+∞∞-)(x f =1,f (x )在负无穷到正无穷的积分值为1,即曲线下方面积为1。
5.μ和σ2的意义μ:位置参数,当σ固定时,μ增大,曲线沿横轴向右移动;μ减小,曲线沿横轴向左移动。
σ2:形状参数,当μ固定时,σ越大,曲线越矮胖;σ越小,曲线越高瘦。
6.标准化变换z=σμ-x x ~N (μ,σ2) z ~N (0,1) F (x)=Ф(σμ-x )=Ф(z) 即P (X ≤x)=Ф(σμ-x )=P (Z ≤z)P (a<x<b)=F (b)-F (a)=Ф(σμ-b )-Ф(σμ-a P (σμ-a <σμ-x <σμ-b )=P (σμ-a < Z<σμ-b )7.标准正态分布界值规定:界值右侧曲线下方面积等于它的下角标。
下角标一致,x 轴上方中间面积一致。
双侧界值:P (|z|≤z 2α)=1-α P (z<z 2α)=1-2αP (|z|≥z 2α)=α P (z>z 2α)=2α单侧界值:上限: 下限: P (z>z α)=α P (z>z 1-α)=1-α P (z<z α)=1-α P (z<z 1-α)=α8.正常值范围及意义概念:医学临床中,常将就诊者的某些生理、生化、免疫学指标的测定结果,与排除了对研究指标有影响的疾病和有关因素的大多数“正常人”的相应数值进行比较,以就诊者的测定值是否超出了大多数“正常人”相应指标的波动范围,作为临床诊断的重要参考,又称医学参考值范围。
意义:95%的参考值范围含义是指:样本中有95%的个体测定值在所求范围之内。
以95%的置信区间来说,意义是:该区间以95%的概率包含了待估计的参数,这种估计的可信度是95%,会冒5%的风险。
公式:双侧95%的界限值:x±1.96s单侧95%的上限值:x+1.645s单侧95%的上限值:x-1.645s第四章总体均数的估计、假设检验1.标准误(1)概念:每次样本计算出的x不同,这些x的标准差称为均数的标准误。
(2)意义:是衡量样本统计量抽样误差大小的统计指标。
(3)与标准差的区别:二者都是描述变异程度的指标,标准差描述个体值的变异,标准误描述统计量的变异。
(4)均数标准误的公式:S x=ns2.置信区间(1)定义:设θ为总体的未知参数,若由样本确定的两个统计量θ1(x1、x2、…、xn)和θ2(x1、x2、…、xn),且θ1<θ2,对于预先给定的值α(0<α<1),若满足P(^θ1<^θ2)=1-α,则称随机区间(^θ1,^θ2)为θ的1-α置信区间,其中称为^θ1置信下限,称为^θ2置信上限,1-α称置信度。
(2)意义:区间(^θ1,^θ2)包含有参数θ的概率为1-α,不能说θ在(^θ1,^θ2)的概率为1-α。
例:可以说(a ,b )包含均数μ的概率为95%,不能说μ在(a ,b )的概率为95%。
(3)公式:单个正态总体均数μ的区间估计 ①σ已知:双侧:nz x σα2± 即 x z x σα2±z 分布单侧:nz x σα± 即 x z x σα±②σ未知:双侧:n st x 2α± 即 x s t x 2α± 小样本(n ≤50) t 分布单侧:n st x α± 即 x s t x α± 双侧:n sz x 2α± 即 x s z x 2α±大样本(n>50) z 分布单侧:nsz x α± 即 x s z x α±(4)两要素:准确度:由1-α 决定,1-α 越大,准确度越高。
精确度:由区间长度决定。
99%置信区间准确度高于95%置信区间。
95%置信区间精确度更高。
3.抽样分布(1)t 分布①定义: 来自正态总体的一组样本,x 和s 分别是样本的均数和标准差。
则t=ns x /μ-~t 分布,自由度 df=n-1,极限分布是标准正态分布。
②图形分布特征:以0为中心,左右对称的单峰分布。
自由度越大,越高瘦 ③界值: 双侧:P (|t|≤t 2α)=1-α P (t<t 2α)=1-2αP (|t|≥t 2α)=α P (t>t 2α)=2α单侧:上限: 下限:P (t<t α)=1-α P (t<t 1-α)=α P (t>t α)=α P (t>t 1-α)=1-α (2)χ2分布①定义:若从均数为μ,标准差σ的正态总体中,每次抽取样本含量为n 的样本,计算样本标准差s ,则χ2=(n-1)s 2/σ2服从自由度df=n-1的χ2分布。
②图形分布特征: 曲线偏向左边 自由度越小曲线越偏 ③界值: 双侧:P (x 2>x 22α)=2α P (x 2>212α-x )=1-2α P (x 2<x 22α)=1-2α P (x 2<212α-x )=2α单侧:上限: 下限: P (x 2>x 2α)=α P (x 2>x 21-α)=1-α P (x 2<x 2α)=1-α P (x 2<x 21-α)=α (3)F 分布①定义:如果分别从两个正态总体N (μ1,σ1)和N (μ1,σ1)中随机抽取样本含量 n 1、n 2的两个样本,算出样本均数和方差分别为x 1,s 21和x 2,s 22,则σσ22222121//s s F =服从df 1=n 1-1,df 2=n 2-1的F 分布。