当前位置:文档之家› 数据特征的描述

数据特征的描述


9
10
n 1 10 1 位置 5.5 2 2
960 1080 中位数 1020 2
4 - 15
四分位数
(quartile)
1. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据
4-7
众数
(mode)
1. 出现次数最多的变量值
2. 不受极端值的影响 3. 一组数据可能没有众数或有几个众数 4. 主要用于分类数据,也可用于顺序数据和数值 型数据
4-8
众数
(不唯一性)
无众数 原始数据: 一个众数 原始数据:
10 6
5 5
9 12 9 8
6 5
8 5
多于一个众数 原始数据: 25 28 28 36 42 42
2.
中位数

3.
均值

4 - 29
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 适 用 的 测 度 值
4 - 30
分类数据 ※众数 — — — — —
顺序数据 ※中位数 四分位数 众数 — — —
间隔数据 ※均值 众数 中位数 四分位数 — —
比率数据 ※均值 调和平均数 几何平均数 中位数 四分位数 众数
百分比 (%) 30 22 18 12 18 100
vr
50 15 50 15 1 50 0.7 70%
在所调查的50人当中,购 买其他品牌饮料的人数占 70% ,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好
顺序数据:四分位差
4 - 37
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计
4 - 10
15 11 9 6 9 50
0.30 0.22 0.18 0.12 0.18 1
30 22 18 12 18 100
Mo=可口可乐
顺序数据的众数
(例题分析)
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
设一组数据为: x1 ,x2 ,… ,xn 各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk
简单均值 加权均值
4 - 21
x1 x 2 xn x n
x
i 1
n
i
n
M 1 f1 M 2 f 2 M k f k x f1 f 2 f k
4-5
数据分布特征的和测度
(本节位置)
数据的特征和测度
集中趋势
众 数 中位数 均 值
4-6
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 态
集中趋势
(Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
3. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据 4. 各变量值与中位数的离差绝对值之和最小,即
x
4 - 12
i 1
n
i
M e min
顺序数据的中位数
(例题分析)
甲城市家庭对住房状况评价的频数分布 回答类别
非常不满意 不满意 一般 满意 非常满意 甲城市
户数 (户)
24 108 93 45 30
峰 度
离中趋势
1. 数据分布的另一个重要特征
2. 反映各变量值远离其中心值的程度(离散程度) 3. 从另一个侧面说明了集中趋势测度值的代表程度 4. 不同类型的数据有不同的离散程度测度值
4 - 33
分类数据:异众比率
4 - 34
异众比率
(variation ratio)
1. 对分类数据离散程度的测度 2. 非众数组的频数占总频数的比率 3. 计算公式为
算术平均:
4 - 27
G 4.5% 2.1% 25.5% 1.9% 4 8.5%
众数、中位数和均值的关系
均值 中位数 众数
均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
4 - 28
众数、中位数和均值的特点和应用
1. 众数

不受极端值影响
具有不唯一性 数据分布偏斜程度较大时应用 不受极端值影响 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
n
0 8 20 1 100 1 12(分) 10
均值
(数学性质)
1. 各变量值与均值的离差之和等于零
(x x) 0
i 1 n i
n
2.
各变量值与均值的离差平方和最小
(x x)
i 1 i
4 - 24
2
min
几何平均数
(geometric mean)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下
甲组: 考试成绩(x ): 0 人数分布(f ):1
乙组: 考试成绩(x): 0 人数分布(f ):8
20 1
20 1
100 8
100 1
x甲
x
i 1Biblioteka nix乙
4 - 23
x
i 1
n
n
i
0 1 20 1 100 8 82(分) 10
4 - 16
四分位数
(位置的确定)
顺序数据:
n QL 位置 4 Q 位置 3n U 4
4 - 17
顺序数据的四分位数
(例题分析)
甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
4 - 18
甲城市
解:QL位置=(300)/4=75
年平均增长率=114.91%-1=14.91%
4 - 26
几何平均数
(例题分析)
【例】一位投资者购持有一种股票,在2000、2001、2002和 2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资 者在这四年内的平均收益率
几何平均:
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
1
2
3
4
5
6
7
8
9

n 1 9 1 位置 5 2 2 中位数 1080
4 - 14
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 位 序: 置: 660 750 780 850 960 1080 1250 1500 1630 2000
1 2
3
4
5
6
7
8
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性
4 - 35
异众比率
(例题分析)
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计
4 - 36 解:
频数 15 11 9 6 9 50
比例 0.30 0.22 0.18 0.12 0.18 1
lg x
i 1
n
i
n
几何平均数
(例题分析)
【例】某水泥生产企业 1999 年的水泥产量为 100 万吨, 2000 年与1999年相比增长率为9%,2001年与2000年相比增长率为 16%,2002年与2001年相比增长率为20%。求各年的年平均增 长率。
Gm n x1 x2 xn 3 109% 116% 120% 114.91%
§4.2 离散程度的测度
一.分类数据:异众比率 二.顺序数据:四分位差 三.数值型数据:方差及标准差 四.相对位置的测量:标准分数 五.相对离散程度:离散系数
4 - 31
数据的特征和测度
(本节位置)
数据的特征和测度
集中趋势
众 数 中位数 均 值
4 - 32
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
QU 1250+(1500 1250) 0.75 1437.5
4 - 19
均值
(mean)
1. 集中趋势的最常用测度值
2. 一组数据的均衡点所在 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺序数据
4 - 20
简单均值与加权均值
(simple mean / weighted mean)
累计频数
24 132 225 270 300
解:中位数的位置为 301/2=150.5 从累计频数看,中 位数在“一般”这一组 别中。因此
合计
4 - 13
300

Me=一般
数值型数据的中位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
解:这里的数据为顺序 数据。变量为“回答类 别” 甲城市中对住房表 示不满意的户数最多, 为 108 户,因此众数为 “不满意”这一类别, 即 Mo=不满意
相关主题