当前位置：文档之家› 第4章数据分布特征的测度

第4章数据分布特征的测度

.
调和平均数
调和平均数的概念：也叫倒数平均数, 一般认为是算术平均数的变形。
m1 m2 ... mn xH mn m1 m2 ... x1 x2 xn
.
m m x
.
几何平均数
几何平均数（G）的概念：它是分布数列中n个单位标志值连乘积的n次方根。适用于计算时间上相互衔接的比率的平均数；主要用于计算平均发展速度；计算公式为：
百分比 (%) 8 36 31 15 10 100.0
解：这里的数据为定序数据。变量为“回答类别”
该城市中对住房表示不满意的户数最多，为 108 户，因此众数为“不满意”这一类别，即
Mo＝不满意
统计函数—MODE
4.1.2
中位数(median)
1. 按数值大小排序后处于中间位置上的值；
.
表4-4 某电脑公司销售量数据分组表
按销售量分组
140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计
组中值(Mi)
145 155 165 175 185 195 205 215 225 235 —
第4章数据分布特征的测度
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗？
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态（形状）
数据分布特征的描述
数据的分布特征和测度
R = max(xi) - min(xi)
平均差
1. 各变量值与其平均数离差绝对值的平均数； 2. 能全面反映一组数据的离散程度； 3. 数学性质较差，实际中应用较少。 4. 计算公式为：
？试计算工人平均工资。
工资额（元）
工人数（人）
xf
2300 7800 10800 7000 1700 29600
460 权算术平均数， 520 可用组中值代 600 700 表各组变量值。 850 合计
单位标志总量算术平均数单位数
工资总额各组工资总额xf 29600 50 工人总数各组工人数f 592 .
频数
15 11 9 6 9 50
比例
0.30 0.22 0.18 0.12 0.18 1
百分比 (%) 30 22 18 12 18 100
Mo＝可口可乐
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别非常不满意不满意一般满意非常满意合计
户数 (户) 24 108 93 45 30 300
X1f1 X 2f2 X NfN X f1 f2 fN
X f
i1 K
K
ii
f
i1
i
.
例4-3：某厂工人各级别工资额和相应工人数资料如下表4-5：
表4-3 各组标志值
× 各组单位数
f
5 15 18 10 2 50
=
各组标志总量工资总额（元）
注意：由组 x 距数列计算加
箱线图的构成
箱线图的构成：
X 最小值 QL 中位数 QU X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数中位数 170Байду номын сангаас8 182
上四分位数 197
最大值 237
140
150
160
170
180
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
n i 1 2 ( X X ) min i i 1
1.
数据类型和所适用的集中趋势测度值
表4-5 数据类型和所适用的集中趋势测度值数据类型适用的测度值定类数据众数 — — — — — — — 定序数据中位数众数定距数据定比数据
算术平均数算术平均数众数中位数调和平均数几何平均数中位数众数
数值型数据
众数中位数
定类数据
（位置平均数）
定序数据
低层次数据的集中趋势测度值适用于高层次的测量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值； 2. 适合于数据量较多时使用； 3. 不受极端值的影响； 4. 一组数据可能没有众数或有几个众数； 5. 主要用于分类数据，也可用于顺序数据和数值型数据。
80 90 259
平均数为80 平均数为80 平均数为80
异众比率(variation ratio)
1. 对分类数据离散程度的测度； 2. 非众数组的频数占总频数的比例； 3. 计算公式为：
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性。
异众比率 (例题分析)
4.1
集中趋势的测度
集中趋势指标
集中趋势指标（也叫平均指标）反映同类现象的一般水平或平均水平，是总体内各单位参差不齐的标志值的代表值，也是对变量分布集中趋势的测定。数据集中位置
x
变量x
它是一个抽象值；它是一个代表值；它反映了总体（各单位标志值）分布的集中趋势。
算术平均数按计算方法不同调和平均数几何平均数数值平均数
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 2.
3.
用于显示未分组的原始数据的分布；由一组数据的 5 个特征值绘制而成，它由一个箱子和两条线段组成；绘制方法：
首先找出一组数据的 5 个特征值，即最大值、最小值、中位数Me和两个四分位数 (下四分位数QL和上四分位数 Q U )；连接两个四分位数画出箱子，再将两个极值点与箱子相连接；该箱线图也称为Median/Quart./Range箱线图。
50%
Me
50%
2. 不受极端值的影响； 3. 主要用于定序数据，也可用定量数据，但不能用于定类数据；
数值型数据的中位数(奇数个数据)
例4-1： 9个家庭的人均月收入数据
1080 850 960 2000 1250 1630 960 1080 1250 1500 1630 2000 原始数据: 1500 750 780 排序: 750 780 850 位置:
.
几何平均数（例题分析）
例4-5：一位投资者持有一支股票，在2000、2001、 2002、2003年的收益率分别为4.5%、2.1%、25.5%和 1.9%。计算该股票在这四年中的平均收益率。
.
G n x1.x2 .x3 ...xn 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
分布的形状与箱线图
QL 中位数 QU QL 中位数 QU Q L 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少，所以它的最佳用途是用来同时比较多个分布。例如 , 为了解不同教育程度的人的收入差别，根据某年 71512 个人的收入的抽样调查结果，得到的不同受教育程度的人的收入分布如下图：
4.1.3
算术平均数
N
设一组数据为：X1 ，X2 ，… ，XN 简单算术平均数的计算公式为(未分组数据）
X1 X 2 X N i1 X N N
X
i
各单位标设分组后的数据为：X1 ，X2 ，… ，XK 志值的和相应的频数为： f1 ， f2，… ，fK 总单加权算术平均数的计算公式为（分组数据）位数
7
8
9
10
n 1 10 1 位置 5.5 2 2

960 1080 中位数 1020 2
箱式图
中位数(位置和数值的确定)
n 1 位置确定中位数位置 2 x n1 2 数值确定 M e 1 x n x n 1 2 2 2
众数
一个众数原始数据:
无众数原始数据:
6 10
5 5
9 9 12
8 6
5 8
5
多于一个众数原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布饮料品牌
可口可乐旭日升冰茶百事可乐汇源果汁露露合计解：这里的变量为“饮料品牌”，这是个定类变量，不同类型的饮料就是变量值所调查的 50 人中，购买可口可乐的人数最多，为15人，占被调查总人数的 30% ，因此众数为“可口可乐”这一品牌，即
不同品牌饮料的频数分布饮料品牌可口可乐旭日升冰茶百事可乐汇源果汁露露频数 15 11 9 6 9 比例 0.30 0.22 0.18 0.12 0.18 百分比 (%) 30 22 18 12 18
解：
vr
50 15 50 15 1 50 0.7 70%
合计
50
1
100
在所调查的50人当中，购买其他品牌饮料的人数占 70% ，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好。
极差(range)

e商务文档

第4章数据分布特征的测度

相关文档推荐：

e商务文档

第4章 数据分布特征的测度

相关文档推荐：

第4章数据分布特征的测度