定量资料的统计描述
的描述指标---中位数---频数表法
计算步骤:①按所分组段由小到大计算累计频数和累计 频率;②确定中位数所在组段,即累计频率包含50%的 组段;③求中位数。
i M L (n 50% f L ) fM
式中,L, i, f M 分别为中位数所在组段的下限、组距和频 数; f L 为小于L的各组段的累计频数。
便于发现资料中的某些特大或特小的可疑值。 当样本含量特别大时,可以频率估计概率。 作为资料的陈述形式。在文献报告中,用频数表 既可直观地反映被研究事物的分布特征,又便于 作进一步的分析研究。
§2.2 集中趋势
平均数是一类用于描述数值变量资料集中趋势的指 标,反映一组同质观察值的平均水平或中心位置。 统计上的平均数包括均数、几何均数、中位数、众 数、调和均数等。
集中趋势
离散程度
频数
30 25 20 15 10 5 0
163 165 167 169 171 173 175 177 179 181 183
身高(c m )
图 某地100名18 岁男大学生身高的频数分布
45
四、频数分布的类型
对称分布:指频数分布的集中位置在中间,左右两侧大 致对称。 偏态分布:指频数分布不对称,集中位置偏向一侧:集 中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如有害化学物质在正常人体内的分布为正偏态分布;冠心 病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态 分布。 不同的分布类型应选用不同的统计分析方法。
需要根据变量的取值范围划分为若干个组段,再
汇总各组段的频数。
具体步骤如下:以例2.1资料为例。
数值变量资料频数表的编制
1. 求全距
全距(或极差,range)是最大值与最小值之差,
用 R 表示。
例2.1中,最大值为183.5cm,最小值为162.9cm,
故R =183.5-162.9=20.6(cm)。
数值变量资料频数表的编制
3. 列出频数表
采用计算机或划记法将原始数据汇总,得出各组
段的观察例数,即频数,把各组段(或各观察值)
及其相应的频数列表即为频数表 。
注意:最末组段应写出上、下限,其余组段只包
含下限,不包含上限。
表 2-1 某地 100 名 18 岁男大学生身高(cm)的频数表 身高组段 (1) 162 164 166 168 170 172 174 176 178 180 182184 合计 频数
f
组中值
x
(2) 1 4 7 12 18 24 15 8 7 3 1 100
(3) 163 165 167 169 171 173 175 177 179 181 183 —
20
三、频数分布的特征
频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集 中,以中等身高居多(172cm组段),此为集中趋势。 反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高 到较矮或较高的频数分布逐渐减少,反映了身高的 离散程度。 对于数值变量资料,应用集中趋势和离散程度二者 结合起来分析其分布规律。
一、均数
均数(mean)是算术均数(arithmetic mean)的简称。 定义:指所有观察值的代数和除以观察值的个数。
符号:样本均数用 X 表示,总体均数用 (miu)表示。
应用: 用于反映一组同质观察值的平均水平,应用 甚广。 适用于正态或近似正态分布的数值变量资料。 计算方法:直接法 加权法
G n X1 X 2 X n
或 G lg 1 (
样本含量 n 较小时
lg X 1 lg X 2 lg X n 1 lg X ) lg ( ) n n 例2.4 有6份血清的抗体效价为1:10,1:20,1:40,
1:80,1:80,1:160, 求其平均效价。
三、中位数
中位数(median)是一种位置指标。 定义:将一组观察值按由小到大的顺序排列后位次居 中的数值就是中位数,小于和大于中位数的观察值个 数相等。 50% 50% M 符号:用 M 表示。 应用:用于描述任何分布,特别是偏态分布资料以及 频数分布的一端或两端无确切数据资料的中心位置。 计算方法:直接法 频数表法
第二章 定量资料的统计描述
主要内容
§2.1 频数分布 §2.2 集中趋势 §2.3 离散趋势 §2.4 正态分布及其应用
§2.1 频数分布
频数分布表的概念
频数分布表的编制方法
频数分布的特征
频数分布的类型 频数分布表的用途
例2.1某地2004年抽样调查 100名男大学生的身高(cm)
173.6 173.6 173.8 174.5 168.3 171.9 173.5 171.2 168.5 171.3 165.8 175.3 164.4 174.3 175.0 168.6 168.6 177.1 178.7 176.1 168.7 178.4 170.0 170.4 172.1 167.6 172.4 170.7 177.3 169.7 173.6 181.5 175.0 173.2 166.9 169.1 175.7 173.6 165.9 177.9 173.7 170.5 177.7 174.5 172.7 166.8 178.8 167.2 174.0 171.1 177.8 176.4 171.4 173.7 172.2 172.0 169.1 170.7 170.2 179.3 180.3 170.8 162.9 173.4 168.0 168.4 175.5 174.7 169.5 183.5 173.1 171.8 179.0 173.9 172.7 166.2 170.8 171.8 172.1 168.5
2.3 离散趋势
例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞 计数,每人数5个计数盘,得结果如下(万/mm3)
盘编号 1 2 3 4 5 合计 均数 甲 440 460 500 540 560 2500 500 乙 480 490 500 510 520 2500 500 丙 490 495 500 505 510 2500 500
f
(2)
滴度倒数 X (3) 4 8 16 32 64 128 256 512 —
lg X
(4) 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 2.7093 —
f lg X
(5)=(2)× (4) 0.6021 1.8062 7.2246 15.0510 28.8992 16.8576 12.0410 5.4186 87.9003
称频数表(frequency table)。
频数:对某一随机现象进行重复观察,或测量大 量个体的某项特征,其中某个或某一组变量值出 现的次数。 频数表:将各变量值与其相应的频数列成表格形 式即为频数表。
二、频数表的编制
编制频数表时不可能把所有的变量值及其相应频
数都列出来,特别是当样本例数 n 较大时,此时
集中趋势的描述指标---中位数---直接法
直接法:用于样本含量 n 较小的资料。 n为奇数时,M X ( n1) / 2 n为偶数时,M ( X n / 2 X n / 21 ) / 2
例2.6 某病患者9名,其发病的潜伏期(d)分别为: 2, 3, 3, 3, 4, 5, 6, 9, 16,求发病潜伏期的中位数。 本例n=9,为奇数,故 M X (n1) 2 X 5 4(d)。
几何均数(geometric mean) 定义:指一组观察值的乘积,再被观察值个数开方。
符号:用 G 表示
应用:适用于 ①数据经过对数变换后呈正态分布的 (对数正态分布)资料;②观察值之间呈倍数或近似 倍数变化(等比关系)的资料。如医学实践中的抗体 滴度、平均效价等。 计算方法:直接法 频数表法
集中趋势的描述指标---几何均数---直接法
7
173.0 180.7 174.9 172.9 172.3 172.8 171.7 167.3 178.2 175.5
172.6 170.7 178.3 177.9 175.2 166.1 164.6 174.8 170.9 175.9
10
一、频数分布表的概念
当样本含量 n 较大时,为了解样本中观察值的分 布规律和便于指标计算,可编制频数分布表,简
数值变量资料频数表的编制
2. 确定组段和组距
组段数:根据样本含量的多少确定,一般设8~13个组段。 组距:各组段的起点和终点分别称为下限和上限,相邻两组 段的下限之差(或每一组段的上、下限之差)称为组距。一般 取等距分组,常用全距的1/10取整做组距。某组段(下限+上 限)/2为组中值。 划分组段:各组段应是连续的,不能有交叉或重叠。第一组 段应包括最小值;最末组段应包括最大值,并同时写出其下 限与上限。 例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ; 最小值为162.9cm,故第一组段的下限为162cm,第二组段的 下限为164cm,依次类推,最末组段为182cm184cm,包含 最大值183.5cm 。
月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)
栏,求平均抗体滴度。
集中趋势的描述指标---几何均数---加权法
表 2-2 50 名麻疹易感儿童平均抗体滴度计算表
抗体滴度 (1) 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合 计 人数 1 2 6 10 16 8 5 2 50
集中趋势的描述指标---几何均数---加权法
f lg X 1 87.9003 G lg ( ) lg ( ) lg 1 (1.758006 57 ) f 50