当前位置:文档之家› 定量数据的统计描述

定量数据的统计描述


样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
1. 计算方法 1) 直接法:适用于样本例数n较少的资料。
X X1 X2 ... Xn X
2)百分位数可用于确定医学参考值范围(详后)。
3)分布在中部的百分位数相当稳定,具有较好的代表性, 但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。
90 ~
1
92 ~
0
94 ~
0
96 ~
0
98 ~
0
100 ~
0
110 ~
1
112 ~
3
114 ~
9
116 ~
9
118 ~
15
120 ~
18
122 ~
21
124 ~
14
126 ~
10
128 ~
4
130 ~
3
132 ~
2
134 ~ 136
1
第二节 定量变量的特征数
总体中的某些个体总是具有某些同质性,同一地区、同 一年度、同一民族、同一年龄段、相同的性别与类似的健康 状况,这些共同点使得该人群的血清铁含量应趋向同一数值, 即集中趋势。不同总体间比较的方式之一就是对他们的集中 趋势进行比较。另一方面,同一总体中的个体之间又普遍存 在着各种差别,也就是说由于遗传、营养、行为、发育、心 理的各种因素在个体之间都不会完全相同,即个体间存在差 异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
P 7 5 L f i x n . x % f L 1 4 2 2 3 5 5 5 7 6 % 2 5 1 1 3g / 4 3 m 3
2. 中位数和百分位数的应用
1)中位数常用于描述偏态分布资料的集中趋势,反映位 次居中的观察值的平均水平。在对称分布的资料中,中位数和 均数在理论上是相同的。
卫生统计学
第二章 定量资料的统计描述
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
第一节 频数与频数分布
一、连续型定量变量的频数分布
频数表的编制: 频数(frequency):对一个随机变量做重复观察, 其中某变量值出现的次数。 频数分布表(frequency distribution table):将各变 量值及其相应的频数列成表格的形式。 例2-2 抽样调查某地120名18岁~35岁健康男性居 民血清铁含量(μmol/L)见P12,试编制频数分布表。
的平均数就是中位数。 2
例2-7 某药厂观察9只小M 鼠口服Xn2高山Xn2红1景/天2 醇
提物(RSAE)后在乏氧条件下的生存时间(分钟)
如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,
68.6,69.0
n为奇数,M=63.6 (cm)
2)频数表法计算中位数和百分位数:适用于
12
15
180
2700
16~
20
17
340
5780
18~
27
19
513
9747
20~
12
21
378
7938
22~
10
23
276
6348
24~
26X ~
f84 0 x2222 57 1 2.5 8 821m 7 0008 /L ol52090106
28~30
1f 12920 29
841
合计
120(∑f)
一个百分位数Px将总体或样本的全部观察值分为两部分,理 论上,在不包括Px的全部数据中有X%的观察值比它小,有 (100-X)%的观察值比它大。
1. 中位数和百分位数的计算
1) 直接法:适用于样本例数n较少的资料。
将观察值按大小顺序排列,当n为奇数时,中
间那个数就是中位M 数。当Xnn为1偶数时,中间两个数
形长条的高度与相应检查次数的频率呈正比。
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
连续变量的频数分布图
直方图
连续型变量的频数分布图,以直方的面积大小表 示频率的多少。
二)几何均数应用的注意事项: 1)几何均数常用于等比级数资料或对数 正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
(三)中位数和百分位数
中位数(median,M):将一组变量值从小到大按顺序排列, 位次居中的那个变量值就是中位数。
百分位数(percentile, Px):指把数据从小到大排列后位于 第X%位置的数值。有n个观察值X1,X2…Xn,把他们由小到大按 顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平均的分为100等份, 对应于每一等份的数值就是一个百分位数,对应于前面X%个位 置的数值称为第X百分位数,用Px表示。
n
n
其中X1,X2…Xn为各变量值,n为样本例数。
2) 加权法:适用于变量值较多的资料。
X fx 0 fx 0 f n
f1,f2…fn分别为各组段的频数,X1,X2…X0 为各组段 的组中值, 组中值=(本组段下限+下组段下限)/2。
即频数多,权数大,作用也大,频数小,权数小,作 用也小。
划记
一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
二、离散型定量变量的频数分布
离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
合计
120
M P 5 0 L f i x n . x % f L 1 2 2 8 1 7 5 2 % 5 0 0 1 0 . 7 8 m 4 / L
例 某市大气中SO2的日平均浓度见表2.5,求P25,P50,P75。
例 某市大气中SO2的日平均浓度见表2.5,求中位数,P25,P50,P75。
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30
频数
1 3 6 8 12 20 27 18 12 8 4 1
累计频数
1 4 10 18 30 50 77 95 107 115 119 120
累计频率
0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17 100.00
7份HBsAg的平均滴度为1:64
2) 加权法:适用于样本例数n较多的资料。
G l g 1 f1lg X 1 f 1 f2 fl2 g X .2 . .f .n f.n l.g X n
lg
1
f lg f
X
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
2228(∑fX0) 43640( fX02)
2. 均数的两个重要特性
1). 各离均差的总和等于0。(总体中各变量值X与均 数之差称为离均差)
X0
2). 离均差的平方和小于各观察值X与任何数a之差的
平方和。( a X ) 即 XX2< Xa2
设:a≠ X,则a= X±d,d>0
Xa2 XXd2 XXd2
组段的起点数据。
下限:每个组段的起点(最小值) 。
上限:每个组段的终点(近似最大值)。
注:最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表2 120名正常成年男子血清铁含量的频数分布表
相关主题