数据特征的描述(1)
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9
Q L 位 9 4 置 1 2 .5Q U 位 3 (9 置 4 1 ) 7 .5
位 置: 1 2 3 4 5 6 7 8 9
位置 n1915 22
中位数 1080
4 - 15
统计学
(第二版)
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9 10
Mo=可口可乐
统计学
(第二版)
顺序数据的众数
(例题分析)
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市 户数 (户) 百分比 (%)
非常不满意
24
8
不满意
108
36
一般
93
31
满意
45
15
非常满意
30
10
合计
300
100.0
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住房 表示不满意的户数 最 多 , 为 108 户 , 因此众数为“不满 意”这一类别,即
4 - 20
7 88050 15 1 06 030 Q L 2 81Q U 5 2 156
统计学
(第二版)
数值型数据的四分位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置 n110 15.5 22
中位数 9601080 1020 2
4 - 16
统计学
(第二版)
四分位数
(quartile)
1. 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
2. 不受极端值的影响
3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
4 - 17
270
非常满意
30
300
合计
300
—
4 - 14
解:中位数的位置为 300/2=150
从累计频数看, 中位数在“一般”这 一组别中。因此
Me=一般
统计学
(第二版)
数值型数据的中位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000
统计学
(第二版)
第4章
数据分布特征的测度
§4.1 集中趋势的测度 §4.2 离散程度的测度
4 -1
统计学
(第二版)
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度)
偏态和峰态 (形状)
4 -2
统计学
(第二版)
数据分布特征的测度
数据特征的测度
集中趋势
众数 中位数 均值
4 -3
离散程度
分布的形状
无众数 原始数据:
10 5 9 12 6 8
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
4 -8
统计学
(第二版)
分类数据的众数
(例题分析)
不同品牌饮料的频数分布
饮料品牌
频数 比例 百分比 (%)
可口可乐
15 0.30 30
旭日升冰茶 11 0.22 22
层次数据的测度值并不适用于低层次的测量数据
4 -5
统计学
(第二版)
分类数据:众数
4 -6
统计学
(第二版)
众数
(mode)
1. 出现次数最多的变量值 2. 不受极端值的影响 3. 一组数据可能没有众数或有几个众数 4. 主要用于分类数据,也可用于顺序数据和
数值型数据
4 -7
统计学
(第二版)
众数
(不唯一性)
异众比率 四分位差 方差和标准差 离散系数
偏态 峰态
统计学
(第二版)
§4.1 集中趋势的测度
一. 分类数据:众数 二. 顺序数据:中位数和分位数 三. 数值型数据:均值 四. 众数、中位数和均值的比较
4 -4
统计学
(第二版)
集中趋势
(Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值 4. 低层次数据的测度值适用于高层次的测量数据,但高
4 - 12
i1
统计学
(第二版)
中位数
(位置的确定)
原始数据: 顺序数据:
中位数位 n置 1 2
中位数位置n 2
4 - 13
统计学
(第二版)ຫໍສະໝຸດ 顺序数据的中位数(例题分析)
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
4 - 19
解:QL位置= (300)/4 =75
QU位置 =(3×300)/4
=225
从累计频数看, QL在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此
QL = 不满意
QU = 一般
统计学
(第二版)
数值型数据的四分位数
统计学
(第二版)
四分位数
(位置的确定)
原始数据:
Q
L
位置
n 1 4
Q
U
位置
3(n 1) 4
顺序数据:
4 - 18
Q
L
位置
n 4
Q
U
位置
3n 4
统计学
(第二版)
顺序数据的四分位数
(例题分析)
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
Mo=不满意
4 - 10
统计学
(第二版)
顺序数据:中位数和分位数
4 - 11
统计学
(第二版)
中位数
(median)
1. 排序后处于中间位置上的值
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
4. 各变量值与中位数的离差绝对值之和最小,即
n
xi Me min
百事可乐
9 0.18 18
汇源果汁
6 0.12 12
露露
9 0.18 18
合计
50
1
100
4 -9
解:这里的变量为“饮料 品牌”,这是个分类变量 ,不同类型的饮料就是变 量值
在 所 调 查 的 50 人 中 , 购买可口可乐的人数最多 , 为 15 人 , 占 总 被 调 查 人数的30%,因此众数为 “可口可乐”这一品牌, 即