医学统计学基本概念一.医学统计学运用概率论和数理统计等数学的原理和方法,研究医学领域中资料的搜集、整理、分析和推断的一门学科。
二、统计学中的基本概念总体和样本参数与统计量随机同质与变异抽样误差概率小概率原理1.变量(variable)(1)变量:收集资料中确定了的观察单位称为个体,在统计工作中反映个体的特征称为变量。
(2)随机变量:由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,简称变量.变量的观察值(观察结果)可以是定量的也可以是定性的,可分为:数值变量:可以度量大小,如血压等分类变量:无序变量:血型、性别有序变量:如测定某人群血清反应分-、+、++、+++四级2.总体和样本(population and sample)▴总体(population):是根据研究目的确定的研究对象中所有同质观察单位某项指标取值的集合。
▴样本(sample):是从总体中随机抽取的具有代表性的部分观察单位某项指标取值的集合。
个体:构成总体的最基本的观察单位。
样本含量:样本中所包含的最基本的个体数,常用n表示。
⏹统计推断就是要从样本信息去推断总体特征⏹样本要具代表性,须:①随机抽取②例数足够多。
3、参数与统计量( parameter and statistic )参数parameter:描述总体的统计指标或特征值,是事物本身固有的、不变的,为常数,常用希腊字母表示。
统计量statistic:描述某样本特征的统计指标或特征值,随试验不同而不同,其分布是有规律的、变化的,常用拉丁字母表示。
4. 同质与变异(homogeneity and variation)同一总体或其样本中的观察单位在所取指标方面必须具有相同的性质,称为同质性(homogeneity),与之相反的是异质性或间杂性(heterogeneity).同质(homogeneity):观察单位具有相的性质;异质(heterogeneity):性质不同。
同质性是构成研究总体的必备条件;研究内容不同,对同质性的要求不同;不同质的个体不能笼统地混在一起分析变异(variation):指在同质的基础上各观察单位(或个体)之间的差异,是以具有同质性的观察单位为载体,某项观察指标在其观察单位之间显示的差别。
,一种或多种不可控因素(已知或未知)作用下所产生的一种综合表现。
就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)个体变异是普遍存在的。
就总体而言,个体变异是有规律的。
变异规律的体现:分布(distribution)没有个体变异,就没有统计学!5. 随机(Random )随机:指机会均等,是为了保证样本对总体的代表性、可靠性而采取的一种统计学措施。
目的是保证样本对总体的代表性、可靠性.⏹随机抽样:有相同的机会被抽到;⏹随机分组:有相同的机会被分到不同的组中;⏹实验顺序随机:先后处理机会相同。
6、抽样误差(P28)★抽样误差(sampling error):由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差别。
原因:个体变异+抽样表现形式:①样本统计量与总体参数间的差别②不同样本统计量间的差别抽样误差是有规律的!7.概率(probability)随机事件:随机现象的某个可能观察结果称为一个随机事件。
频率Relative frequency :在n次随机试验中,事件A发生了m次,f=m/n,则比值f=m/n称为事件A在这n次试验中出现的频率。
概率:在重复试验中,事件A发生的频率,随着试验次数的不断增加,将越来越接近一个常数P,这个常数P就称为随机事件A发生的概率。
是随机事件发生可能性大小的一个度量,用P表示,取值范围为0≤P≤1。
✓必然事件 P=1✓不可能事件 P=0✓区分频率与概率,大样本情况下频率是概率的一个较好的估计值小概率原理(page3)当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。
小概率原理是进行统计推断的依据。
小概率事件在一次试验中认为是不会发生的。
三.统计资料的类型1、定量资料(quantitative data) :以定量值表达每个观察单位的某项观察指标,如血脂、心率等。
特点①各观察单位间只有量的差别;②数据间有连续性。
2、定性资料(qualitative data):以定性方式表达每个观察单位的某项观察指标,表现为互不相容的类别或属性,如血型、性别等。
特点①各观察单位间或者相同,或存在质的差别;②有质的差别者之间无连续性。
3、等级资料(ranked data):以等级表达每个观察单位的某项观察指标,如疗效分级(显效、有效、改善、无效)、血粘度、心功能分级等。
特点①各观察单位间或相同,或存在质的差别;②各等级间只有顺序,而无数值大小,故等级之间不可度量。
根据分析需要,三种资料可以转化定量资料→定性资料;定量资料→等级资料;等级资料→定性资料信息量只有减少,不可增加第二章 数值变量资料的统计描述 2.1数值变量资料的频数表1. 频数表的编制(1)找出极大值和极小值,并计算极差R (2)依R 分组,确定组数k 、组距w 。
组段常取8-15组;组距取整数或方便计算的数值,可用1/10R 取整作组距;各组距相等,第一组包涵最小值,最后一组包含最大值,各组包含该组的下限,不包括上限。
(3)计算频数,各组频数占总频数的比例为相对频数或频率。
2. 频数表的用途(1)可揭示资料的分布特征和分布类型 对称分布:均数在正中,左右频数对称 偏态分布:正偏态(右偏态):分布的尾部偏向数轴正侧(右侧)。
负偏态(左偏态):分布的尾部偏向数轴负侧(左侧)。
(2)进一步计算其它统计指标和统计分析处理 (3)便于发现某些可疑值弃却最大一个数X n ,若r=(X n -X n-1)/(X n -X 1)>1/3 弃却最小一个数X1,若 r=(X 2-X 1)/(X n -X 1)>1/32.2集中趋势的描述:平均数(average )平均数:用来描述定量资料集中位置的一组指标体系,是分析定量资料的基本指标,反应某种现象或事物数共同趋势的平均水平。
包括:算术均数、几何均数、中位数、众数。
求平均数必须注意:①同质的事物或现象才能求平均数 ②由资料的分布选用适当的平均数 1、算术均数(arithmetic mean):算术均数:反映了一组观察值的平均水平,适用于单峰对称或近似单峰对称分部数据的平均水平描述,简称均数计算方法一:直接法计算方法二:加权法• 加权均数(weighted mean) 均数是加权均数的一个特例均数的特性:各离均差Xi- 之和=0 即Σ(X- )=0nx nx x xx n ∑=+++= (2)11niii X w X==∑x x2、几何平均数 (geometric mean)几何均数(geometric mean):描述对数偏态分部或数据呈倍数变化数据的水平,记为G(1)适用范围:某些医学资料,如抗体的滴度、细菌计数、率或比的变化速度等,频数分布明显偏态,各变量之间形成倍数关系,经对数变化后观察值趋向于单峰对称分布,即对数正态分布资料。
要求:①观察值中不能有0;②同一组变量不能同时存在正值和负值;③若变量全为负值,计算时将负号除去,算出结果后在冠以负号。
(2)计算方法:直接法加权法(资料中相同观察值的个数f 较多时,如频数表资料)3、中位数(median )和百分位数(percentile )中位数M :将一组观察值从小到大排列,位置居中的观察值水平称为中位数,记作M 。
百分位数(P x ):一种位置指标,一个百分位数将一组变量值分成两部分,理论上有x%的观察值比它小,有(100-x )%的值比它大。
P 50就是中位数。
(1)适用范围:1)描述偏态分布资料的集中位置2)资料有个别特大特小值 3)一端或两端有不确定的数值(2)计算①直接由原始数据计算中位数将观察值依顺序排列:X (1)、X (2)、…、X (n ) n 奇 M=X ((n+1)/2)n 偶 M= (X (n/2)+X (n/2+1))/2例:对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。
本资料属于“开口”资料。
本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。
②用频数表计算中位数和百分位数● 按所分组段,由小到大计算累计频数和累计频率,找出Px 所在的组段 ● 求百分位数其中fx 为Px 所在组段的频数, i 为该组段的组距,L 为其下限, Σf L 为小于L 各组段的累计频数4、众数(mode )指一组观察值出现次数最多的值。
观察例数较少时,众数无实际意义。
一组观察值可能有几个众数。
)lg (lg 1∑∑-=fx f G G=121x x xn n x n =-∑lg (lg ))%(∑-⋅+=ffpLx x x n i L2.3 离散程度的描述1、全距(极差)R=max-min一组变量值中最大值与最小值之差,反映资料的分布范围,全距大,说明数据变异度大。
优点:简单 缺点:①只用到最大、最小值,样本信息没能充分利用②当资料呈明显偏态时,最大、最小值不稳定,受两端的极值影响。
③样本例数越多,R 可能越大,2组观察值例数悬殊时不用R 比较。
2、四分位间距(inter-quartile range )Q=p 75-p 25=Q u -Q L四分位数间距:指上、下四分位数的间距,既QL 与QU 间的差距,适用范围:常与中位数一起描述偏态分部数据的分布特征,较极差稳定。
3、方差(variance )和标准差(standard deviation )方差:表示一组数据的平均离散情况,由离均差平方和SS 除以样本个数得到。
标准差:直接地、总结地、平均地描述了变量值的离散程度,适用于近似正态分布的数据,显示一组变量值与其均数的间距。
(1) 方差和标准差均反映个体变异,个体变异度大,标准差和方差越大,反之亦然。
(2) 计算 总体方差 σ2= 样本方差S 2=总体标准差σ= 样本标准差在样本中,μ未知,常用 替代自由度df :允许自由取值的个数。
Df=变量值个数-限制条件数。
5、变异系数(离散系数)C.V .适用范围:①比较度量单位不同的两组或多组资料的变异度;②比较均数相差悬殊的两组或多组资料的变异度。
计算:标准差与均数之比。
正确应用:平均数• 算数均数:适用于单峰对称分布资料;• 几何均数:适合于作对数变换后单峰对称分布资料; • 中位数和百分位数:适用于任何分布的资料;中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。