是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。
涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序1、提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和时间)获取准确可靠的信息资料及可信的结论,使效益最大化。
3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料规律进行检测与描述。
(confidence interval)估计与统计学假设检验(hypothesis test)。
统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。
6、分析结果的合理解释(Explication of results):研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。
2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。
3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。
,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反; 针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。
根据研究目的所确定的具有相同性质的观察单位的集合成为总体(母体)。
从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样)。
组与对照组的过程。
与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。
A的发生概率记为P(A)。
概率的取值在0 到1之间,若P=1或P=0的事件称为必然事件,若0<P<1 的事件为随机事件。
概率接近于0(如P<)的事件称为小概率事件。
体标准差,π表示总体率。
x表示样本均数,s表示样本标准差,p表示样本率。
生物医学数据的组织与表达变量的类型:按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。
摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量)1、定性变量(Qualitative Variable)(1)名义变量(Nominal variable)二项分类:性别分类,如男性为1,女性为0。
多项无序分类:血型的A、B、AB、O型多项无序分类(2)有序(等级)变量(Ordinal or ranking variable)多项有序分类:疗效观测分为显效、有效、好转及无效4个类别。
2、定量变量(Quantitative Variable)(1)区间变量(interval variable ):或数值变量(numerical variable )如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。
(一般有度量衡单位,类别间的差别大小有实际意义)(2)比变量(ratio variable):以上例子中除体温外(具有真实意义的零点)连续型变量(Continuous variable)与离散型变量(Discrete variables)根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量频数分布表:*定量数据的频数分布;*(非配对设计)定性数据的频数分布*配对设计定性数据的频数分布一组段或类别的数据出现个数。
频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。
R= mmol/L(2)决定分组组数、组距:组距=极差/组数。
(3)列出组段:(4)划记计数。
(非配对设计)定性数据的频数分布:*一维频数表*二维频数表*高维频数表统计图形表达:*直方图(Histogram):用于描述定量变量的数据分布特征。
*概率-概率散点图(p-p plot)又称为p-p 图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;*分位数-分位数散点图(q-q plot)又称为q-q图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性绘P-P或Q-Q图的数据*茎叶(Stem-Leaf )图*盒式图(Box plot)直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小。
饼图(pie Chart):反映定性变量各个分类的构成情况。
*散点图* 线图*统计地图(statistical map)SAS会话窗口界面:三个基本窗口*Editor 编辑窗:在此编写SAS程序*Log 记录窗:记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色---错误绿色--- 警告兰色---正常)*Output结果输出窗:统计分析的结果。
*Result窗口*Explorer窗口单变量综合性描述统计量常用的中心趋势指标:算术均数、几何均数、中位数、众数,统称为平均数(average)简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量Sample Size)。
反映一组呈对称分布的变量值在数量上的平均水平。
(1)直接计算法 :公式 :nxx ni i∑==1(2)加权法:∑∑∑∑======ki ki iiik i ki iiff x fif xx 1111组中值=(下限值+上限值)/2均数的特征:*最常用,特别是正态分布资料;*对极值非常敏感,最大值和最小值常将其拉向自己;*离均差的和为0公式: n 为奇数时)21(+=n XM n 为偶数时 ⎥⎦⎤⎢⎣⎡+=+)12()2(21n n X X M频数表资料的中位数中位数的特征:计算时只利用了位置居中的测量值,优点:对极值不敏感,缺点:并非考虑到每个观测值;适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端或两端无确切数值的资料 百分位数(percentile ): 直接计算设有n 个原始数据从小到大排列,第X 百分位数的计算公式为: 当nX%为带有小数位时:]1%)[int(+=nX X Px 当 nX%为 整数时:[])1%(%)(21++=nX nX X X Px 频数表法:计算方法大致同中位数几何均数(geometric mean ):可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
公式:n n X X X G~.21=(2)加权法:)lg (lg1∑∑-=f X f G 几何均数的特征1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。
2、变量x 服从对数正态分布,即表示变量lg(xi)服从正态分布。
对于lg(xi),具有正态分布的所有特性。
众数的特征:1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。
离散与变异性指标:全距;方差;标准差;变异系数;四分位间距;多样性指数R=Max(x) ?Min(x).mean square deviation ),反映一组数据的平均离散水平。
样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即总体方差:N)(122∑=-=ni ixμσ样本标准差实用公式样本标准差的加权公式 随机变量xi 的标准化:如果随机变量xi 服从正态分布,均数和标准差分别为x 和s ,则随机变量xi 的标准化正态离差值(Standard normal deviation )又称为标准化得分值(Standard Scores)为:sxx Z i i -=常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。
%100⨯=xsCV 四分位数间距(inter-quartile range ):用IQR 表示: IQR=P75-P25=Q3-Q4用熵与最大熵之比表达离散度 率、比的均数与方差在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。
Proportion ,constituent ratio ):构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。
应用率比指标时的注意事项1、保证有足够样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可比性(不可比时可采用率标准化);5、不要简单由样本率的差异做出结论。
率比和均数一样都有抽样误差,需采用假设检验下结论。
随机变量、概率和概率分布n 次试验,事件A 出现f 次,则事件A 出现的频率为f/n 。
P 表示;取值[0,1]。
随机试验的所有可能的结果称为样本空间。
频率与概率间的关系:1. 样本频率总是围绕概率上下波动;2. 样本含量n 越大,波动幅度越小,频率越接近概率。
1)(2112--=∑∑==n nx xs ni i ni i1)(112112--=∑∑∑∑====ki iki iki i i ki ii ffx f xf s事件间的关系:(1)和事件(Union of two events):事件A 或者事件B 发生(A 或B)或(A ∪B ) (2)积事件(Intersection of two events):事件A 与事件B 同时发生(A 与B )或(A ∩B ) (3)互斥事件:事件A 、事件B 不可能同时发生(也可都不发生),则事件A 与事件B 互斥 (4)对立事件:事件A 、事件B 不可能同时发生,并且事件A 与事件B 必有一个发生。
B ,以事件A 为条件, 则在A 的条件下,事件B 发生的概率为P(B|A)事件的独立性:若事件A的发生不影响事件B的发生,即事件A 与事件B 相互独立,则有P(B|A)= P(B)xi 及这些值对应概率P(X=xi)的表格、公式或图形。
可变成光滑的分布曲线。
大多数情况下,可采用一个函数拟合这一光滑曲线。
这种函数称为~ 常用的概率分布:离散型随机变量分布 一、二项分布 二、泊松分布当二项分布中n 很大,π很小时,二项分布就变成为Poisson 分布,所以Poisson 分布实际上是二项分布的极限分布。
由二项分布的概率函数可得到泊松分布的概率函数为:{}!x e x X P x μμ-==Poisson 分布主要用于描述在单位时间(空间)中稀有事件的发生数 Poisson 分布概率的计算 Poisson 分布的性质分布的均数与方差相等 即σ2=m 分布的可加性分布的正态近似 :m 相当大(≥20)时,近似服从正态分布:N (m , m ) 4.二项分布的Poisson 分布近似连续型随机变量分布:变量的取值充满整个数值区间,无法一一列出其每一个可能值。