《统计学》第3讲:图表描述
频 率
二百只灯泡的可使用小时数次数分布直方图
数值型数据的图表描述
60
50
40
将数据分为 9 组时的直方图
30
20
10
0 46.7 55.0 63.3 71.7 80.0 88.3 96.7 105.0 113.3
二百只灯泡的可使用小时数次数分布直方图
数值型数据的图表描述
二百只灯泡的可使用小时数频数分布盒形图
数值型数据的图表描述
由直方图看次数分布特征
反J形分布
数值型数据的图表描述
由直方图看次数分布特征
U形分布
数值型数据的图表描述
几种图示方法优劣比较
优
茎叶图 盒形图 直方图
点
缺
陷
变量取值较多,不影响其 显示效果
变量值较多,观测较多不 影响显示效果。概括性好 变量值较多,观测较多不 影响显示效果。概括性较 好。反映次数分布直观
数值型数据的图表描述
制 作 11 名 学 生 各 科 成 绩 盒 形 图
编号 1 2 3
11名学生各科成绩 英语 数学 经济学 76 65 93 90 97 95 51 81 76
营销学 74 87 85
统计 55 91 68
4 5 6 7 8 9 10 11
71 70 93 86 83 78 85 81
数值型数据的图表描述
由直方图看次数分布特征
观测无限增多,组数 无限增多,组距无限 缩小,分布特征不变, 则图形趋近平滑曲线
钟形的对称分布
数值型数据的图表描述
由直方图看次数分布特征
钟形的右偏分布
数值型数据的图表描述
由直方图看次数分布特征
钟形的左偏分布
数值型数据的图表描述
由直方图看次数分布特征
正J形分布
75
65 81 83 78 90 96 66 68
90
81 62 70 66 78 75 86 72
62
75 79 70 66 71 64 96 77
89
62 83 81 94 101 76 89 60
71
94 93 77 77 78 72 81 87
71
71 61 72 63 43 77 71 84
数值型数据的图表描述
20
10
适用于大量观测 的情况,能很好 地显示次数分布 状况。但也丢失 了不少数据细节
0
20
25
30
35
40
45
50
55
60
直方图 通常是 等距的
某地一星期申请结婚女性年龄频数分布直方图
数值型数据的图表描述
107
73
65 62 116 86 78
68
71 79 65 73 88
6 5+ 5 4+ 4 3+ 3 2+ 2 1+
0 6
6 0 7 0 5 2 9
能在变量取值较多的情况 下,很好地显示分布状况, 同时又没有丢失信息
4
但不适合观测较多的数据
0 0 1 1 3 3 4 5 5 5 6 6 7 7 7 9 9 9 9 2 3 3 3 3 4 4 4
数值型数据的图表描述
某地一星期申请结婚女性年龄排序
19
23
22
24
22
24
23
24
23
25
23
25
25
29 30 36 60
25
29 31 37
26
29 31 40
27
29 33 44
27
30 33 46
27
30 34 56
数值型数据的图表描述
某地一星期申请结婚女性年龄频数分布表 年龄 19 22 23 24 25 26 27 29 30 频数 1 2 4 3 4 2 3 4 3 年龄 31 33 34 37 40 44 46 56 60 频数 2 2 1 1 1 1 1 1 1
如果观测数较大,显示 效果不好
有信息损失 有信息损失。组数的确 定带有一定的主观性
多变量数据的图形描述
三十名学生的身高与体重数据
序号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
身高x
156.0 155.0 144.6 161.5 161.3 158.0 161.0 162.0 164.3 144.0 157.9 176.1 168.0 164.5 153.0
97
80 86 88 80 77
76
84 68 64 68 103
79
88 74 79 78 88
94
62 61 78 89 63
49
61 82 79 72 68
98
79 65 77 58 88
57
98 98 86 69 81
二 百 只 灯 泡 样 本 的 可 使 用 小 时 数
54 66 62 74 92
93
89 68 59
69
82 61 62
76
96 73 71
89
77 72 81
75
102 76 65
73
63
63
89
82
64
85
92
64
73
数值型数据的图表描述
小时数
43-48
灯泡数
2 1 2 21 28 28 上 限 33 26 21 19
上限 下限 组中值 2
48-53 53-58 58-63 63-68 68-73 下限 73-78 78-83 83-88 88-93
某地一星期申请结婚女性年龄频数盒形图(box plot)
下四分 位 数
上四分 位 数
1.5S
盒形图与点线 图的刻度相同
最 小 数 值
中 位 数
适用变量取值较多和频数较多 的情况,但有一定的信息损失
最 大 数 值
方盒越宽,说明频数分布的离散程度越高;方盒越窄, 说明离散程度越低;中位数在方盒中的相对位置趋近 于中间,表面频数分布具有较强的对称性。 方盒右侧延伸出来的线段成端一般取1.5倍分位差范 围内的最大观测值;左侧延伸出来的线段长短取1.5 倍分为差范围内的最小观测值。
总 计
50
100
定类数据的图表描述
饼形图(pie chart )
10% 10% 38% 16%
频 数
20
条形图(bar chart)
频 率
%
40
10
20
26% 0 0
用饼形图表 示频率分布
可口 雪 可乐 碧
杏 仁 露
新 骑 士
醒 目
定类数据频数分布的图示可采用饼形图或条形图
定类数据的图表描述
10% 10% 38% 16%
74 78 63 91 82 75 71 55
88 66 79 83 92 78 86 78
69 90 80 77 84 91 74 70
73 84 81 70 69 94 62 71
数值型数据的图表描述
11名学生各科成绩频数分布盒形图
英 语
经 济 学 数 学
营 销 学
统 计
盒形图便于变量间 频数分特征的比较
5种软饮料购买频数排序
可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 可口可乐 雪 碧 雪 雪 雪 雪 雪 雪 雪 雪 雪 雪 碧 碧 碧 碧 碧 碧 碧 碧 碧 碧 雪 雪 杏 杏 杏 杏 杏 杏 杏 杏 碧 碧 露 露 露 露 露 露 露 露 新 新 新 新 新 醒 醒 醒 醒 醒 骑 骑 骑 骑 骑 士 士 士 士 士 目 目 目 目 目
定序数据的图表描述
累计频数的一切特点源于频数分布
甲城市家庭对住房状况评价累积频数图
向上 累计
300
200
100
向下 累计
0
非常不 满意
不 满 意
一 般
满 意
非常满 意
数值型数据的图表描述
某地一星期申请结婚女性年龄原始数据 30 31 29 34 30 37 27 27 24 22 19 25 24 56 23 33 23 23 22 40 25 29 23 60 31 30 29 46 44 25 24 36 33 25 29 27 26
满 意
非常 满意
非 常 满 意
定序数据的图表描述
甲城市
非常 满意
非常 不满 意
乙城市
非常 满意
非常 不满 意
满意
不满意 一般 满意 一般 不满意
甲乙两城市家庭对住房状况评价频数分布饼形图
定序数据的图表描述
甲城市
乙城市
甲乙两城市家庭对住房状况评价分布频数环形图(loop chart)
定序数据的图表描述
第二步 确定组距
最大变量值 最小变量值 组距
43 9
※本例SPSS默认组数为 15 组。可见该方法并非 绝对
116
8.1
组数
※组距宜取整数。最好 是5或5的倍数
第三步 汇总频数 上 限 不 在 本 组 内
如78应汇入78-83 组
数值型数据的图表描述
频 数
由频率所得的直 方图与由频数所 得的直方图的特 征相同
例如 第7组组中值
上限 下限 2 73 78 2 75.5
93-98
98-103 103-108 108-113 113-118
10
6 2 0 1
二 百 只 灯 泡 使 用 小 时 数 组 距 频 数 分 布 表