(精选)定量资料统计描述
当数据分布对称时,理论上中位数等于算术均数,当数 据经对数转换后分布对称时,理论上中位数等于几何均数。
因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。
f1f2fk
f n
15
f 起了“权数”的作用,权衡了各组中 值由于频数不同对均数的影响。
加权法计算的均数是近似的。
16
数据分布对称时,均数位于分布的中心, 它是频数分布最集中的位置。
若数据分布不对称,均数不位于分布的中 心,不能反映分布的集中趋势和平均水平。
17
2. 几何均数(Geometric mean. G)
P50 即中位数。
22
中位数与百分位数的计算
1) 直接法
1
M2(X(n2)
X(n1)) 2
M X(n1) 2
2) 间接法
Px
L i
fx
(n
x%fL)
23
中位数和百分位数的应用
中位数和百分位数一般用于描述偏态分布资料,它不受 两端特大或特小值的影响,也可用于所谓“开口资料”(即末 端无确切数据的资料)。
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
百分位数可确定包括 x %的个体的界值。适用于任 何分布类型的资料。
双侧:WBC的95%参考值范围: P2.5 和 P97.5 单侧:肺活量的95%参考值范围:P5
尿铅的95%参考值范围:P95
25
三、离散程度的描述
三组同性别、同年龄的儿童体重(㎏) A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统 计指标有两类:
一类是描述数据分布集中趋势的指标, 即平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据
定量资料的统计描述
描述定量资料数量特征和分布规律 的统计方法有两类:
一是通过统计表(图)如频数分布表 (图),二是计算适当的统计指标定量描述 资料的集中趋势和离散程度。
1
一、频数分布表
1. 频数表(Frequency Table)的编制 ① 确定最大值、最小值、极差(全距)
2
② 划定组段和组距
根据全距大小和观测值多少确定“组段”数。制作频数 表是为了显示数据分布规律,故组段数不宜太多或太少。 各组段起点和终点分别称为下限和上限。 相邻两组段的下限之差称组距,一般采用等距分组,组 距近似等于极差/组段数。 第一组段应包括全部观察值中的最小值,最末组段应包 括全部观察值中的最大值并且同时写出其下限与上限。 各组段不能有重叠。
3
③ 统计各组段频数: 计数各组段内的数据个数(频数)
4
④ 计算频率与累计频率 各组频数之和等于总例数,将各组频数
除以总例数所得的比值称为频率。 频率描述了各组频数在全体中所占的比
重,各组频率之和为100%。
5
实际应用中,有时需知道在某个指定值以 下的频数或频率,这种频数或频率称为累计 频数或累计频率。
26
1. 极差(Range,R)
RA = 34- 26 = 8 RB = 36- 24 = 12 RC = 34- 26 = 8
缺点:① 不能反映所有数据的变异程度。 ② 样本例数相差悬殊时不宜比较级差。
27
2. 四分位数间距
四分位数(Quartile,Q):即特定的百分位数 P25和 P75。P25 为下四分位数QL ,表示全部观察值中有25%的观察值比QL 小, P75 为上四分位数QU ,表示有25%的观察值比QU大。
20
3. 中位数(Median. M)与百分位数 一组观察值从小到大排列,位次居中的
观察值即中位数,是一个位置指标。
21
百分位数(percentile):亦是位置指标,用 Px 表示。
Px 表示将全部观察值分为两部分,有 x % 的观察值比 Px 小,有 100 – x % 的观察值比 Px 大。
在数量上的平均水平。 注意:总体均数用希腊字母表示,
样本均数用英文字母表示。
13
1) 直接法 将所有数据直接相加,再除以总例数。
XX1...Xn X
n
n
14
2) 加权法
相同观察值较多时,可将其个数(频数 f )乘以该观 察值 x ,以代替相同观察值逐个相加。
Xf1X 1f2X 2fkX k fX fX