当前位置:文档之家› 第4章 数据分布特征的测度

第4章 数据分布特征的测度


.
调和平均数
调和平均数的概念: 也叫倒数平均数, 一般认为是算术平均数的变形。
m1 m2 ... mn xH mn m1 m2 ... x1 x2 xn
.
m m x
.
几何平均数
几何平均数(G)的概念: 它是分布数列中n个 单位标志值连乘积的n次方根。 适用于计算时间上相互衔接的比率的平均数 ; 主要用于计算平均发展速度; 计算公式为:
百分比 (%) 8 36 31 15 10 100.0
解:这里的数据为定 序数据。变量为“回 答类别”
该城市中对住房 表示不满意的户数最 多 , 为 108 户 , 因 此 众数为“不满意”这 一类别,即
Mo=不满意
统计函数—MODE
4.1.2
中位数(median)
1. 按数值大小排序后处于中间位置上的值;
.
表4-4 某电脑公司销售量数据分组表
按销售量分组
140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计
组中值(Mi)
145 155 165 175 185 195 205 215 225 235 —
第4章 数据分布特征的测度
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗?
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的描述
数据的分布特征和测度
R = max(xi) - min(xi)
平均差
1. 各变量值与其平均数离差绝对值的平均数; 2. 能全面反映一组数据的离散程度; 3. 数学性质较差,实际中应用较少。 4. 计算公式为:
?试计算 工人平均 工资。
工资额(元)
工人数(人)
xf
2300 7800 10800 7000 1700 29600
460 权算术平均数, 520 可用组中值代 600 700 表各组变量值。 850 合 计
单 位标志总量 算术平均数 单位数
工资总额 各组工资总额xf 29600 50 工人总数 各组工人数f 592 .
频数
15 11 9 6 9 50
比例
0.30 0.22 0.18 0.12 0.18 1
百分比 (%) 30 22 18 12 18 100
Mo=可口可乐
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
户数 (户) 24 108 93 45 30 300
X1f1 X 2f2 X NfN X f1 f2 fN
X f
i1 K
K
ii
f
i1
i
.
例4-3:某厂工人各级别工资额和相应工人数资料如下表4-5:
表4-3 各组标志值
× 各组单位数
f
5 15 18 10 2 50
=
各组标志总量 工资总额(元)
注意:由组 x 距数列计算加
箱线图的构成
箱线图的构成:
X 最小值 QL 中位数 QU X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数 中位数 170Байду номын сангаас8 182
上四分位数 197
最大值 237
140
150
160
170
180
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
n i 1 2 ( X X ) min i i 1
1.
数据类型和所适用的集中趋势测度值
表4-5 数据类型和所适用的集中趋势测度值 数据 类型 适 用 的 测 度 值 定类数据 众数 — — — — — — — 定序数据 中位数 众数 定距数据 定比数据
算术平均数 算术平均数 众数 中位数 调和平均数 几何平均数 中位数 众数
数值型数据
众数 中位数
定类数据
(位置平均数)
定序数据
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值; 2. 适合于数据量较多时使用; 3. 不受极端值的影响; 4. 一组数据可能没有众数或有几个众数; 5. 主要用于分类数据,也可用于顺序数据和数值 型数据。
80 90 259
平均数为80 平均数为80 平均数为80
异众比率(variation ratio)
1. 对分类数据离散程度的测度; 2. 非众数组的频数占总频数的比例; 3. 计算公式为:
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性。
异众比率 (例题分析)
4.1
集中趋势的测度
集中趋势指标
集中趋势指标(也叫平均指标)反映同类现 象的一般水平或平均水平,是总体内各单位参差 不齐的标志值的代表值,也是对变量分布集中趋 势的测定。 数据集中位置
x
变量x
它是一个抽象值; 它是一个代表值; 它反映了总体(各单位标志值)分布的集中趋势。
算术平均数 按计算方 法不同 调和平均数 几何平均数 数 值 平均数
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 2.
3.
用于显示未分组的原始数据的分布; 由一组数据的 5 个特征值绘制而成,它由一个箱子 和两条线段组成; 绘制方法:
首先找出一组数据的 5 个特征值,即最大值、最小值、 中位数Me和两个四分位数 (下四分位数QL和上四分位数 Q U ); 连接两个四分位数画出箱子,再将两个极值点与箱子相 连接; 该箱线图也称为Median/Quart./Range箱线图 。
50%
Me
50%
2. 不受极端值的影响; 3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
1080 850 960 2000 1250 1630 960 1080 1250 1500 1630 2000 原始数据: 1500 750 780 排 序: 750 780 850 位 置:
.
几何平均数(例题分析)
例4-5:一位投资者持有一支股票,在2000、2001、 2002、2003年的收益率分别为4.5%、2.1%、25.5%和 1.9%。计算该股票在这四年中的平均收益率。
.
G n x1.x2 .x3 ...xn 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
分布的形状与箱线图
QL 中位数 QU QL 中位数 QU Q L 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少,所以 它的最佳用途是用来同时比较多个分布。 例如 , 为了解不同教育程度的人的收入差别,根 据某年 71512 个人的收入的抽样调查结果,得到的不 同受教育程度的人的收入分布如下图:
4.1.3
算术平均数
N
设一组数据为:X1 ,X2 ,… ,XN 简单算术平均数的计算公式为(未分组数据)
X1 X 2 X N i1 X N N
X
i
各单位标 设分组后的数据为:X1 ,X2 ,… ,XK 志值的和 相应的频数为: f1 , f2,… ,fK 总单 加权算术平均数的计算公式为(分组数据) 位数
7
8
9
10
n 1 10 1 位置 5.5 2 2

960 1080 中位数 1020 2
箱式图
中位数(位置和数值的确定)
n 1 位置确定 中位数位置 2 x n1 2 数值确定 M e 1 x n x n 1 2 2 2
众数
一个众数 原始数据:
无众数 原始数据:
6 10
5 5
9 9 12
8 6
5 8
5
多于一个众数 原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布 饮料品牌
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 解:这里的变量为“饮 料品牌”,这是个定类 变量,不同类型的饮料 就是变量值 所调查的 50 人中, 购买可口可乐的人数最 多,为15人,占被调查 总人数的 30% ,因此众 数为“可口可乐”这一 品牌,即
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 频数 15 11 9 6 9 比例 0.30 0.22 0.18 0.12 0.18 百分比 (%) 30 22 18 12 18
解:
vr
50 15 50 15 1 50 0.7 70%
合计
50
1
100
在所调查的50人当中,购 买其他品牌饮料的人数占 70% ,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好。
极差(range)
相关主题