当前位置:文档之家› 第二章数值型变量的统计描述

第二章数值型变量的统计描述

1
例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
意义:可用于反映一组经对数转换后呈
对称分布的变量值在数量上的平均水平。
应用:倍数关系或对数转换后呈对称分布,
尤其是对数正态分布
符号:
G(样本)
(1)直接计算 法
G
n
X1X 2 X n
lg X lg X 1 lg X 2 lg X n 1 G lg ( ) lg ( ) n n
意义:用于反映一组呈对称性分布的变
量值在数量上的平均水平或者说是集中 位置的特征值。
应用:对称性分布,尤其是正态分布
符号: 总体, 样本X
23
1.直接计算法
X1 X 2 X n X n
X
n
例2-2 用直接法计算例2-1某医院随机抽查
的138名成年女子的红细胞数的均数。
20
f
可疑值
可疑值
第二节 集中趋势的描述
描述计量资料分布特征的指标 集中趋势指标 离散趋势指标
平均数
R、Q、S、CV
一、常用平均数(average):
1、算术均数(简称均数,mean)
2、几何均数(geometric mean)(简记为G) 3、中位数(median 简记M)
一、算术均数(mean),简称均数
i M=P50= L fx n fL 2
P17:(2-9) (2-10)
L=Px或M所在组段的下限
i=Px或M所在组段的组距 fx=Px或M所在组段的频数
f
L
=小于L各组段的累计频数
(二)百分位数(Px) : 1.定义:百分位数是一种位置指标,用 Px来表示。
将一组观察值从小到大按顺序排列,一个百分位数Px 将全部变量值分为两部分,在Px 处若无相同变量值, 则在不包含Px 的全部变量值中有x%的变量值小于它, (100一X)%变量值大于它。当 X% =50%时, Px 即对
4.61
4.55 4.57 4.56 3.96 4.27 4.26
4.26
4.25 4.26 4.26 3.27 3.61 4.36
5.28
5.11 4.92 3.89
4.21
4.20 4.23 4.21
4.42
4.36 4.47 4.36
4.36
4.54 3.60 3.42
3.66
3.72 5.23 5.01
以图2-1为例
2. 频数分布的类型
(1)对称(正态)分布
(2)偏态分布
正偏态:集中位置偏向数值小的一侧; 负偏态:集中位置偏向数值大的一侧
正偏态
负偏态
(麻疹年龄分布)
(肺癌年龄分布)
3. 便于发现某些特大和特小的可疑值
组 段 (1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合 计 频数 (2) 1 0 0 0 17 20 17 12 9 0 0 8 84
指标的意义及应用。
第一节 频数分布
一、 频数分布表(Frequency Distribution table):
当变量值个数较多时,对各变量值出现的
频数和频率列表,即为频数分布表(简称频数
表)。
频数:相同变量值的个数。
频数分布:变量在取值范围内各组段的分布情况。
(一) 离散型计量变量的频率分布
离散型计量资料(discrete data):
体重(kg)
三、频数表和频数图的用途
(一)揭示资料的分布特征和类型
1、分布特征
集中趋势
特征
2、分布类型
对称分布
类型
离散趋势
偏态分布
(二)便于发现特大或特小的可疑值(离群值) (三)便于进一步计算指标和统计分析。 (四)用于正态性判定。
1、分布特征
(1)集中趋势:频数向中央部分集中。 (2)离散趋势:从中央部分到两侧频 数分布逐渐减少。
1.90309 2.20412
6.40824
13.32163 4.40824
适用于相同观察值较多。
例2-5
G 适用的资料
(1)对数正态分布资料 (2)等比级数资料(呈倍数关系的资料) (如:血清抗体滴度资料) (3)其他对数正态分布资料
(如:一些细菌计数资料)
应用几何均数注意事项:
(1)同一资料求得的G<
(2)观察值不能有0;
x
(3)观察值不能同时有正、负值;
三、中位数(M)和百分位数(Px)
(一) 中位数(M):
1. 定义:中位数是指将一组观察值从小到大(或 由大到小)按顺序排列 ,位次居中的观察值(即居中心 位置的数值) 。
在全部观察值中,大于和小于中位数的观察值的 个数相等。 因中位数其特点是不易受异常值的影响, 故用于描述明显偏态分布、或两端无确定数值 数据的平均水平。
i Px= L n x % f L fx
i M=P50= L fx n fL 2
L=Px或M所在组段的下限 i=Px或M所在组段的组距
f
fx=Px或M所在组段的频数
L
例2-10
=小于L各组段的累计频数
例2-10 ….,试计算潜伏期的中位数
连续型计量资料频数表的编制步骤
1、求全距(极差) (range,R)
R=最大值-最小值=5.46-3.07=2.39(×1012/L)
2、确定组段数和组距。
组段数:习惯上分5~8组(n<50) 8~15组(n≥50) 本例为138例,拟取组段数为12。 组距(i)=2.39/12=0.199 ,将取整i=0.2。
24
(2)频数表法(加权法,大样本资料)
f1 X 1 f 2 X 2 f 3 X 3 f k X k X f1 f 2 f 3 f k
本组下限+下组下限 X 2
f :各组段的频数 k:频数表的组段个数
fX f
(组中值)
加权法计算表
组段
110112-
4.02
3.97 4.02 4.01
4.31
4.28 4.32 4.29
4.83
4.76 4.68 3.68
3.59
3.21 4.76 4.71
3.97
4.04 3.69 4.13
3.96
4.56 4.61 4.574.49ຫໍສະໝຸດ 4.25 4.26 4.26
4.03
5.46
4.16
3.64
4.16
3.76
4.02
3.97 4.01 3.98 4.02 4.01 4.03
4.32
4.28 4.30 4.29 4.33 4.29 4.34
3.72
3.64 4.19 3.67 3.76 3.67 4.69
4.76
4.66 4.75 4.69 4.81 3.39 3.62
4.16
4.04 4.14 4.12 4.17 4.12 4.18
1
例2-4
(2)频数表法(加权法)
不是组中值
G lg
1
f lg X ( ) f
适用于相同观察值较多或频数表资料。
不需计算组中值
抗体滴度 1:20 人数f 2 滴度倒数X 20 lgX 1.30103 f*logx 2.60206
1:40
1:80 1:160
4
7 2
40
80 160
1.60206
3.96
3.77 4.63 4.56 4.66 4.61 4.98
4.23
4.20 3.91 3.79 4.28 4.26 4.24
4.42
4.36 4.41 3.89 3.83 3.96 3.83
3.59
3.07 3.52 4.21 4.20 4.23 4.20
5.12
4.89 5.03 4.95 5.24 3.76 3.71
相关主题