当前位置:文档之家› 数值变量资料的统计描述

数值变量资料的统计描述

第一章数值变量资料的统计描述统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。

统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。

因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。

对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、频数分布1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。

频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础.2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。

3.频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。

又可分为正态分布(normal distribution)和非正态分布(non-normal distribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。

二、频数表和频数图13.8412。

5313.7014.8917.5313。

1918。

8210.1514。

5611。

2314。

7317.4413.9014.1012。

2912.6114。

7814.409。

9315.1814。

5914.7118.6219.0410.9513.8110。

5318。

0616.1815。

6013。

5611.4813。

0716。

8817.0417。

9812.6710。

6216。

4314。

2611。

039。

2315。

0414。

0915.9011.4814.6417。

2415。

4313.3713。

6414.3915。

7413.9911。

3117.6116。

2611.3217。

8816.7813。

5311.6813。

2511.8814.2115。

2115.2916.6312。

8715.9313.7014。

4511.2319.8413.1115.1511。

7015。

3712.3514。

5114。

0918.2214。

3415。

4811.9816.5412。

9512。

0616.6717.0916。

8513。

2016。

4812.2912。

0914。

8315.6614。

5016。

4315。

5712。

8112。

8917。

3416。

0413.4117.1312.329。

2918。

4214。

1714.3516.1915.7313。

7414.9417。

2815。

1911。

9215.4715。

33表1—2 某地120名正常成年人血浆铜含量(μmol/L)频数表组段划记频数f频率P(%)累积频数fC累积频率PC(%)⑴⑵⑶⑷⑸⑹9。

00~下 3 2.5 3 2.510。

00~止 4 3。

3 7 5.811。

00~正正T1210。

01915.812。

00~正正下1310.83226.613。

00~正正正T1714.24940.814.00~正正正正T2218。

37159。

115。

00~正正正下1815.08974。

116.00~正正下1310。

810284.917.00~正正——11 9。

211394.118。

00~正 5 4.211898.319.00~T 2 1。

7120100.0合计——120100。

0————2.数值变量资料频数图的编制1.等距分组以横轴表示变量,以纵轴表示频数。

由表1-2的资料绘制频数图(图3—1)。

2.不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。

由表1—3的资料绘制频数图(图3—2)。

第二节 数值变量资料集中趋势的描述集中趋势(central tendency)是度量由变异导致变量值多样性的数量指标,其代表值为平均数。

平均数是一组描述或反映一组数值变量平均水平的统计指标。

根据计算或确定方法的不同,平均数可分为算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median ) 、调和平均数(harmonic mean )和众数(mode)。

一、算术平均数1.定义 算术平均数简称为均数,是一组观察值之和与观察值个数之商。

是数量上的平均。

统计符号x 。

2.应用条件 要求资料服从正态或近似正态分布。

如生理指标. 3.计算方法⑴直接法 用于观察值例数不多的资料。

计算公式见公式1—1.⑵加权法 用于观察值例数较多或观察值中相同数据较多的资料。

计算公式见公式1—2。

x =nx∑ (公式1-1)x =ffx∑∑ (公式1-2) 式中希腊字母Σ为求和的符号。

例1—2 12例肾虚失钠型哮喘病人甲皱微循环的管袢长度(μm)分别为125。

0、125。

0、125。

0、187.5、187。

5、187。

5、187。

5、250。

0、250。

0、250.0、312.5、312.5,求其均数.代入公式1-1得:x =25。

0+125.0+125.0+187。

5+187。

5+187.5+187。

5+250。

0+250。

0+250.0+312。

5+312.5)/12=2500/12=208.3(μm)例1—3 计算表1—2资料的均数。

(1)列计算表 见表1—4。

表1—4 某地120名正常成年人血浆铜含量(μmol/L )的均数、标准差计算表血浆铜含量(μmol/L ) 组中值x 频数f fx fx2⑴⑵⑶⑷=⑵⑶⑸=⑵⑷9。

00~9.50 8 28。

50 270。

75 10.00~ 10。

5l 4 42.00 441.00 11.00~ 11。

50 12 138。

00 1 587。

00 12。

00~ 12.50 13 162。

50 2 031。

25 13.00~13。

5017 229。

50 3 098。

25二、几何均数1.定义几何均数是n个数值连乘积的n次方根。

是比例或倍数上的平均。

统计符号G。

2.应用条件等比数列资料。

如抗体滴度。

3.计算方法⑴直接法用于观察值例数不多的资料。

计算公式见公式1—3.⑵加权法用于观察值例数较多或观察值中相同数据较多的资料。

计算公式见公式1-4。

注:式中希腊字母Π为求积的符号。

例1-4 某医院测得8例脾虚纳呆患儿的尿液淀粉酶含量(U/10ml)为4,4,8,8,8,16,16,32,试求其均数。

例1—5 某地46例暑温病人的血凝抑制抗体滴度如表3—8第⑴、⑵栏,试求其平均数。

(1)列计算表见表1-5。

(2)计算几何均数将表1—5第⑵、⑸栏合计数代入公式1—4,得:G=㏒—1(104.7004/46) =㏒-12.2761=189三、中位数1.定义将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。

是位次上的平均。

统计符号M。

2.应用条件不拘分布或分布类型不明的资料;一端或两端无界的资料.如潜伏期、治愈时间和发病年龄。

3.计算方法⑴直接法用于观察值例数不多的资料。

若观察值为偶数:M=X(n+1)/2 。

若观察值为偶数,位次居中的两个观察值的均数即中位数。

M=(X n/2+X(n/2+1))⑵频数表法用于观察值例数较多的资料。

计算公式见公式1—5.式中L为M所在组段的下限;i为该组段的组距;fm为该组段的f;Σf为总例数(f之和);Σf L为小于L的各组段fC。

用该式求中位数时,需先编制频数表。

例1-6某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,试求其中位数。

本例观察值的个数为奇数,将9个观察值按从小到大的顺序排列后,位次居中的第五个观察值“3天”即其中位数。

如果观察值为10个,第10个数值为16天,则位次居中的两个观察值“3"和“4"的算术均数3.5即为M。

例1—7某医院905例男性银屑病患者的发病年龄资料见表1—6 第⑴、⑵栏,试求其M。

M的累计频率应为50%.由表1—6第(4)栏可知,“20~”组段的累计频率已大于50%,故M应位于该组段内。

代入公式1—5,得:M=20+(10/346)(905/2-306)=24。

23(岁)表1-6 905例男性银屑病病人的发病年龄年龄(岁)频数f累计频数fC累计频率PC(%)⑴⑵⑶⑷<10 54 54 5。

9710~ 252 306(ΣfL) 33.8120~(L) 346(fM)652 72.0430~ 128780 86。

1940~ 84864 95。

4750~ 29893 98。

6760~ 5898 99.23≥70 7 905(Σf)100。

00第三节数值变量资料的离散趋势描述离散趋势指标亦称变异性指标,它们是在整体上描述一组同质观察值的变异程度大小的综合指标,常用的变异性指标有极差、四分位数间距、方差、标准差和变异系数。

为了全面描述研究总体的特征,需要在计算集中性指标的同时计算离散性指标.如表1—7的两组数据,A与B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。

A较集中,变异较小;而B较分散,变异较大。

一、极差(range)极差亦称全距(R),其计算公式见公式1-2。

R与变异程度成正比。

其特点是意义明确、计算简便,但灵敏性和稳定性较差。

二、百分位数(percentile )和四分位数间距(quartile range )1.概念 百分位数是把一组观察值从小到大排列,分为100等份,与x%位次所对应的数值即为第百分之x位数,以符号Px 表示。

如称居于全部观察值个数百分之五位置的点值为第百分之五位数,以符号P5表示。

一个Px 将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。

故百分位数是一种位置指标。

中位数即P50.四分位数间距是上四分位数Q U(P75)与下四分位数Q L(P25)之差,符号为QR 。

它是中间50%观察值的极差。

2.计算方法 可按公式1—6求得百分位数Px .公式1—6求得四分位数间距。

相关主题