第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数(对称分布)算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
nX X ∑= (2-2)(2)加权法:在频数表基础上计算,其中X 为组中值,f 为频数。
∑∑=ffX X (2-3) 2.几何均数(常用于免疫学的指标))几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法⎪⎭⎫ ⎝⎛∑=-n X G lg lg 1 (2-4)(2)加权法⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg 1 (2-5)3.中位数(尤其适合偏态分布资料和一端或两端无确切数值的资料)中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
为奇数时 ⎪⎭⎫ ⎝⎛+=21n X M (2-6)为偶数时 ()(1)2212n nM X X +⎛⎫=+ ⎪⎝⎭(2-7)2-1 常用平均数的意义及其应用场合平均数 意义 应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数 平均增(减)倍数 等比资料;对数正态分布中位数 位次居中的观察值水平 偏态分布;分布不明;分布末端无确定值(一)反映数据变异程度大小的变异指标变异指标的应用亦根据资料的不同而选取不同指标进行描述。
常用的变异指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差和标准差更为常用。
1.极差极差(range )亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
min max X X R -=(2-1)2.百分位数与四分位数间距(1)百分位数(percentile )是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。
百分位数的另一个重要用途是确定医学正常参考值范围。
百分位数用P x 表示,0< x <100,如25%位数表示为P 25。
在频数表上,百分位数的计算公式为:()∑-⋅+=L xxx x f x n f i L P % (2-8)(2)四分位数间距(inter-quartile range )是由第3四分位数(Q 3= P 75)和第1四分位数(Q 1= P 25)相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,比极差稳定。
其计算公式:31QR Q Q =- (2-9)3.方差方差(variance )表示一组数据的平均离散情况,其计算公式为:()122-∑-=n X S μ (2-10)4.标准差标准差(standard deviation )是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用,其计算公式为:S ==(2-11)5.变异系数变异系数(coefficient of variation )用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV 表示,计算公式为:%100⨯=XS CV(2-12)平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要求一起使用。
如常用S X ±或M (QR )。
三、典型试题分析1.名词解释:平均数答案:平均数(average )是描述数据分布集中趋势的指标,在卫生领域中最常用的平均数指标:算术均数、几何均数和中位数。
[评析]本题考察平均数的概念。
平均数是一类统计指标,并不单纯指算术均数。
2.描述一组偏态分布资料的变异度,以( )指标较好。
A.全距 B.标准差 C.变异系数 D.四分位数间距 答案:D[评析]标准差和变异系数均用于描述正态分布资料的变异度,全距和四分位数间距可用于任何资料,而四分位数间距更为稳定,故选D 。
3.用均数和标准差可以全面描述( )资料的特征。
A.正偏态分布 B.负偏态分布C.正态分布和近似正态分布D.对称分布答案:C[评析]本题考察均数和标准差的应用条件。
4.同一资料的标准差是否一定小于均数答案:均数和标准差是两类不同性质的统计指标。
标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小。
标准差可大于均数,也可小于均数。
5.试述极差、四分位数间距、标准差及变异系数的适用范围。
答案:这三个指标均反映计量资料的离散程度。
极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。
四、习题(一)名词解释1.频数表2.算术均数3.几何均数4.中位数5.极差6.百分位数7.四分位数间距8.方差9.标准差10.变异系数(二)单项选择题1.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变2.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.差C.极差D.标准差3.以下指标中()可用来描述计量资料的离散程度。
A.算术均数B.几何均数C.中位数D.标准差4.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距(描述其变异程度)5.各观察值同乘以一个不等于0的常数后,()不变。
A.算术均数 B.标准差C.几何均数D.中位数6.()分布的资料,均数等于中位数。
A.对称B.左偏态C.右偏态D.偏态7.对数正态分布是一种()分布。
A.正态B.近似正态C.左偏态D.右偏态8.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。
A.均数B.标准差C.中位数D.四分位数间距9.()小,表示用该样本均数估计总体均数的可靠性大。
A. 变异系数B.标准差C. 标准误D.极差10.血清学滴度资料最常用来表示其平均水平的指标是()。
A. 算术平均数B.中位数C.几何均数D. 平均数11.变异系数CV的数值()。
A. 一定大于1B.一定小于1C. 可大于1,也可小于1D.一定比标准差小12.数列8、-3、5、0、1、4、-1的中位数是()。
A. 2B. 0C. D.13.关于标准差,那项是错误的()。
A.反映全部观察值的离散程度B.度量了一组数据偏离平均数的大小C.反映了均数代表性的好坏D.不会小于算术均数14.中位数描述集中位置时,下面那项是错误的()。
A. 适合于偏态分布资料B.适合于分布不明的资料C.不适合等比资料D.分布末端无确定值时,只能用中位数15. 5人的血清滴度为<1:20、1:40、1:80、1:160、1:320描述平均滴度,用那种指标较好()。
A.平均数 B.几何均数C.算术均数D. 中位数16.数列0、48、49、50、52、100的标准差为()。
A.50 B.C. D.17.一组变量的标准差将()。
A.随变量值的个数n的增大而增大B.随变量值的个数n的增加而减小C.随变量值之间的变异增大而增大D.随系统误差的减小而减小18.频数表计算中位数要求()。
A.组距相等B.原始数据分布对称C.原始数据为正态分布或近似正态分布D.没有条件限制19.一组数据中20%为3,60%为2,10%为1,10%为0,则平均数为()。
A. B.C. D. 不知道数据的总个数,不能计算平均数20.某病患者8人的潜伏期如下:2、3、3、3、4、5、6、30则平均潜伏期为()。
A.均数为7天,很好的代表了大多数的潜伏期B.中位数为3天C.中位数为4天D.中位数为天,不受个别人潜伏期长的影响21.某地调查20岁男大学生100名,身高标准差为,体重标准差为,比较两者的变异程度,结果()。
A. 体重变异度大B.身高变异度较大C.两者变异度相同D.由单位不同,两者标准差不能直接比较(三)判断正误并简述理由1.均数总是大于中位数。
( x )2.均数总是比标准差大。
( x)3.变异系数的量纲和原量纲相同。
( x )4.样本均数大时,标准差也一定会大。
( x )5.样本量增大时,极差会增大。
( )(四)计算题1.某卫生防疫站测得大气中的二氧化硫的浓度,用两种计量单位表示:mg/m3: 1 2 3 4 5ug/m3:1000 2000 3000 4000 5000分别计算几何均数及标准差,会发现两种不同单位得标准差相等,试解释其原因。
2.尸检中测得北方成年女子80人的肾上腺重量(g)如下,试(1)编制频数表,(2)求中位数、均数和标准差。
3.测得某地300名正常人尿汞值,其频数表如下。
试计算均数、中位数、何者代表性较好。
表2-2 300例正常人尿汞值(μg/L)频数表尿汞值例数尿汞值例数尿汞值例数0-4924-1648-34-2728-952--8-5832-956-212-5036-460--16-4540-564--20-2244--68-14.有5个变量值7,9,10,14,15,试计算X 及()X X -∑。