当前位置:文档之家› 第4章数据的概括性度量.ppt

第4章数据的概括性度量.ppt

第4章 数据的概括性度量
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
引例:
某高校只有两个系,财经系和工程系。 该校报考及录取的总体情况如下:
录取 未录取 报考人数
男生 350 450 800
女生 200 400 600
工程系
财经系
男生 女生 男生 女生
录取
300 100 50 100
未录取 300 100 150 300
246.49 114.49 32.49
0.49 18.49 86.49 204.49
(Xi- X )2Fi
739.47 572.45 259.92
6.86 184.90 518.94 817.96
合计

50

3100.5

K
( X i X )2 Fi
i 1 K

Fi
i 1
3100.5 7.8( 7 个) 50
17
案例分析 加权均值
【例】根据表中的数据,计算50 名 工人日加工零件数的均值
表2-5 某车间50名工人日加工零件均值计算表
按零件数分组 组中值(Xi) 频数(Fi)
105~110
107.5
3
110~115
112.5
5
115~120
117.5
8
120~125
122.5
14
125~130
127.5
4.各变量值与中位数的离差绝对值之和最小,即
n
xi M e min
i1
7
中位数 (位置的确定)
中位数位置 n 1 2
8
案例分析 (9个数据的算例)
【例】 9个家庭的人均月收入数据
原始数据: 1400 750 760 1050 870 950 2100 1450 1540 排 序: 750 760 870 950 1050 1400 1450 1540 2100 位 置: 1 2 3 4 5 6 7 8 9
某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
组中值(Xi)
107.5 112.5 117.5 122.5 127.5 132.5 137.5
频数(Fi)
3 5 8 14 10 6 4
(Xi- X )2
样本均值
x1 ,x2 ,… ,xn
f1 ,f2 ,… ,fk
K

x1 f1 x2 f2 xK f1 f2 fK
fK

xi fi
i1 K
fi
i1
k
x

x1 f1 x2 f2 xk fk f1 f2 fk

xi fi
i1 n
fi
i1
值型数据
5
众数 (不惟一性)
无众数 原始数据: 11 3 7 12 9 8 一个众数 原始数据: 7 4 6 13 4 4 多于一个众数 原始数据: 17 25 25 33 24 24
6
中位数 (median)
1.排序后处于中间位置上的值
50%
50%
Me
2.不受极端值的影响
3.主要用于顺序数据,也可用数值型数据,但不 能用于分类数据
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111/111
111/112
x 11111/11
11 2 111 / 11
x( 2) x(3)
x(10)
11 2
9.2 9.22 9
9.3 9.26
方差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数:
K
(Mi )2 fi
2 i1 N
标准差的计算公式 未分组数据:
N
(xi )2
i1
N
组距分组数:
K
(Mi )2 fi
i1
N
32
案例分析 总体标准差的计算
【例】根据表中的数据,计算工人日加工零件数的标准差
27
第2节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差 (range)
1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布 7 8 9 10
7 8 9 10
5. 计算公式为:
R = max(xi) - min(xi)
25
数据类型
适 用 的 测 度 值
数据类型和所适用的集中趋势测度值
定类数据
定序数据
定距数据
定比数据
众数
中位数
均值
均值

四分位数
众数
调和平均数

众数
中位数
几何平均数


四分位数
中位数



四分位数



众数
本节提问
Q1 一组数据的分布特征可以从哪几个方面进行测度? Q2 怎样理解均值在统计学中的地位? Q3 对于比率数据的平均,为什么采用几何平均? Q4 简述众数、中位数和均值的特点和应用场合。
1)

8.25
QL 650 0.75 (760 650) 732.5
QU 1680 0.25 (1790 1680) 1707.5
统计函数—QUARTILE
14
均值 (mean)
1. 集中趋势的最常用测度值 2. 一组数据的均衡点所在 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺序
10
130~135
132.5
6
135~140
137.5
4
XiFi
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0
K
X

X i Fi
i 1 K
Fi
6160 50
i 1
123.( 2 个)
合计

50
6160.0
18
均值 (数学性质)
1. 各变量值与均值的离差之和等于零
不能自由取值
3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以 自由取值,另一个则不能自由取值,比如x1=6,x2=7, 那么x3则必然取2,而不能取其他值
QU 位置

3(n 1) 4
12
案例分析 (四分位数7个数据的算例)
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7


QL位置
N+1 =4
=
7+1 4
=2
3(N+1) 3(7+1)
QU位置 = 4 = 4 = 6
29
内距 (Inter-Quartile Range,IQR)
1. 也称四分位差 2. 上四分位数与下四分位数之差
内 距 = Q3 – Q1
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
30
方差和标准差 (Variance and Standard deviation)
GM N X1 X 2 X N 4 104.5% 102.0% 103.5% 105.4% 103.84%
平均收益率=103.84%-1=3.84%
21
切尾均值 (trimmed Mean)
1. 去掉大小两端的若干数值后计算中间数据的均值 2. 在电视大奖赛、体育比赛及需要人们进行综合评
33
样本方差和标准差 (simple variance and standard deviation)
方差的计算公式
未分组数据:
n
(xi x )2
s2 i1 n 1
注意:样本 方差用自由 度n-1去除!
组距分组数据:
k
(Mi x)2 fi
s2 i1 n 1
标准差的计算公式
n
(xi x) 0
i1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i1
3. 统计分布的均衡点
19
几何均值 (geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均
3. 主要用于计算平均增长率
4. 计算公式为:
n
Gm n x1 x2 xn n xi
QL= 23
QU = 30
13
案例分析(四分位数10个数据的算例)
【例】 10个家庭的人均月收入数据
排 序: 500 650 760 780 940 1060 1350 1680 1790 1900
位 置: 1 2 3 4 5 6
7
8
9
10


QL位置

10 4
1

2.75
QU位置

3
(10 4

位置 n 1 9 1 5 22
中位数 = 1050
9
案例分析 (10个数据的算例)
【例】 10个家庭的人均月收入数据
相关主题