当前位置:
文档之家› 第二章 数据的描述性分析 图表展示
第二章 数据的描述性分析 图表展示
例:对学生成绩的分组可以分为0~20分、20~40分、
40~60分、60~80分、80~100组
• 不等距分组 适用于变动很不均匀,且变动幅度大 例:学生成绩分组也可分为0~60(D)、 60~80(C) 80~90(B)、90~100(A) 关键问题:分组数目的确定/组距的确定
3.2.1 数据分组
21
7.0 300 100.0
99
33.0
120
40.0 279
93.0
78
26.0
198
66.0 180
60.0
64
21.3
262
87.3 102
34.0
38
12.7
300
100.0
38
12.7
300 100.0
—
—
—
—
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
根据上述资料编制频数分布表,向上向下累计频数,频率 分布表
居民户月消费品 支出额
751~800 801~850 851~900 901~950 951~1000 1001~1050 1051~1100 1101~1150
合计
频数
1 4 12 18 8 4 1 2 50
频率%
2 8 24 36 16 8 2 4 100
(1)表中数据属于顺序数据
(2)
学历 初中 高中或中专 本科 研究生及以上 合计
频数(人) 13 31 27 29 100
(3) 绘制条形图
学历分布
31
27
29
13
初中
高中或中专
本科
研究生及以上
频率(%) 13.00 31.00 27.00 29.00 100.00
环形图
(doughnut chart)
组距式分组
第三,组距的确定 组距=(最大值-最小值)÷组数。
第四,组限的确定 组限的选择应做到第一组的下限应略低于最小变量值,最后 一组的上限应高于最大变量值。
离散型变量:相邻组的上下限可以不重叠 连续型变量:相邻两组的组限应重叠,即上一组的上限
同时也是下一组的下限。用“上限不在内”原则解决不 重问题 当变量值变动范围较大时,最小组为“……以下”,最大组 为“……以上”的开口组。
400 累
225 270 300
积 300 户 300
276
数 200
168
132
(户) 100
75
0 24
0
30
非常 不满意 一般 满意 非常
非常 不满意 一般 满意 非常
不满意 (a)向上累积
满意
不满意 (b)向下累积
满意
甲城市家庭对住房状况评价的累积频数分布
Practice
某家书店为了了解前来该书店购物的顾客的学历分布情况, 随机抽取了100名顾客。其中学历表示为:1:初中,2:高 中或中专,3:本科,4:研究生及以上。调查结果如下表:
3.2.1 数据分组
组距式分组
• 将全部变量值依次划分为若干区间,并将这一区 间的变量值作为一组。
• 适用于:连续变量/离散变量且变量值较多
组距分组
(要点)
1. 将变量值的一个区间作为一组 2. 适合于连续变量 3. 适合于变量值较多的情况
~ ~
4. 需要遵循“不重不漏”的原则
~
5.
频率 fi fi
式中, fi 表示第 i 组的频数。很显然,任何一个分布都必须满 :
(1)各组的频率都界于0和1之间。 (2)各组频率之和等于1(或100%)。
Practice
根据抽样调查,2010年某地区50户城镇居民家庭 的人均月消费额(单位:元)的资料如下。
886 1000 886 926 864 900 938 821 1027 1006 816 999 946 950 1100 800 978 852 890 981 900 818 946 854 900 921 949 954 863 850 916 999 1040 893 967 927 905 919 651 987 928 918 1120 895 1050 866 864 924 928 926
分类数据的图示—条形图
(bar Chart)
1. 用宽度相同的条形的高度或长短来表示各类别数据 的图形
2. 有单式条形图、复式条形图等形式 3. 主要用于反映分类数据的频数分布 4. 绘制时,各类别可以放在纵轴,称为条形图,也可
以放在横轴,称为柱形图(column chart)
分类数据的图示—条形图
3.2.1 数据分组
单项式分组
就是把每一个变量值作为一组。 这种方法通常只适于离散变量且变量值较少的情况
10 13 4 8 7 14 17 7 24 8 10 9 15 10 15 2 5 10 6 5 15 9 8 4 5 20
由于机器台数属于离散型变量,因此使用单项式分组方法。 1.将原始资料按变量值升序排列, 2.然后将相同变量值分为一组, 3.最后将资料分成若干组。
以下主要介绍等距分组的基本步骤。
组距式分组
第一,数据排序
第二,分组数目的确定
使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉
斯经验公式,即
k=1+3.322lgN
k为组数;N为总体中的个体数。
分组组数参考表
N 15~24 25~44 45~89 90~179 180~359
k
5
6
7
8
9
3.2.1 数据分组
4414234433 4423324122 2242323124 1232231243 2344412223 1214142334 3143332423 3441442343 2424222213 4334233142
(1)上表中的数据属于什么类型
(2)制作一张频数分布表,向上频数,向上频率表
(3)绘制一张条形图,反映顾客的学历分布
第 2 章 数据的描述性分析: 图表展示
国际经济贸易学院 经济学教研室 柳馨竹
重要知识点
3.1 品质数据的整理与显示 3.2 数值型数据的整理与显示 3.3 合理使用图表
学习目标
1. 掌握分类和顺序数据的整理与显示方法 2. 掌握数值型数据的整理与显示方法 3. 合理使用图表
3.1 品质数据的整理与展示
分类数据的整理与图示
分类数据的整理 (基本过程)
1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形显示数据
分类 A B C D ELeabharlann 频数比例百分比
比率
分类数据的整理
(可计算的统计量)
1. 频数(frequency) :落在各类别中的数据个 数
2. 比例(proportion) :某一类别数据个数占全 部数据个数的比值
3.2.1 数据分组
组距式分组
第五,组中值的确定 组中值=(上限+下限 )÷2
开口组的组中值: 组中值=下限+邻组组距/2(缺上限) 组中值=上限-邻组组距/2(缺下限)
3.2.1 数据分组
1.频数
频数和频率
频数是各组所具有的单位个数,一般用 fi 表示。
2.频率
即各组频数与总体单位总和之比,它反映了各组频数的大小对总体所起 的作用的相对强度。频率的计算公式如下:
频数
16 15
12
11
9
9
8
6
4
0 可口 旭日升 百事 可乐 冰茶 可乐
汇源 果汁
露露
不同品牌饮料的频数分布
品牌
分类数据的图示—对比条形图
(side-by-side bar chart )
1. 分 类 变 量 在 不 同 时间或不同空间 上有多个取值
2. 对 比 分 类 变 量 的 取值在不同时间 或不同空间上的 差异或变化趋势
分类数据的图示—帕累托图
(pareto chart)
1. 按各类别数 据出现的频 数多少排序 后绘制的柱 形图
2. 主要用于展 示分类数据 的分布
频数
16
15
12
11
9
9
8
6
4
0 可口可乐 旭日升冰茶 百事可乐
露露
不同品牌饮料的帕累托图
汇源果汁
品牌
分类数据的图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及圆内扇形的角度来表示数 值大小的图形
非常满意 30 10 300 100.0 30 10
合计
300 100.0 —
—
—
—
顺序数据的频数分布表
回答类别
非常不满意 不满意 一般 满意 非常满意
合计
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比
(户)
(%)
向上累积
户数 (户)
百分比 (%)
向下累积
户数 (户)
百分比 (%)
21
7.0
2. 主要用于表示样本或总体中各组成部分所占的比 例,用于研究结构性问题
3. 绘制圆形图时,样本或总体中各部分所占的百分比 用圆内的各个扇形角度表示,这些扇形的中心角度, 按各部分数据百分比乘以3600确定
分类数据的图示—饼图
¶ ¶ 18% »ã Ô´ û¹ Ö 12%
¿É ¿Ú ¿É ÀÖ 30%
° Ù ÊÂ ¿É ÀÖ 18%
Ðñ ÈÕ Éý ± ù ²è 22%
²» ͬ · Æ ÅÆ Òû ÁÏ µÄ ¹ ³É
顺序数据的整理与图示
顺序数据的整理
(可计算的统计量)