当前位置:文档之家› 第1讲 分类变量的描述统计(1)

第1讲 分类变量的描述统计(1)

频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所 有单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数 表包括两个要素:总体按其标志所分的组和各组所分布principle and application
南京大学金陵学院
22
1.3 两个分类变量的关系

我们也可以做它的累积频数分布图
图1.2 累积频数分布图
Statistics: principle and application
南京大学金陵学院
11
1.2 频数分布表


3.图形展示
想获得更生动的展示,可以使用统计图。利用统计图表现统计数据,能更加 鲜明、一目了然、形象具体地显示现象之间的相互关系。分类数据的展示主 要有点图(dotplot)、条形图(bar chart)和饼图(pie chart),点图和条形图本质 上是相同的。 [Note]所有分布图的横轴是变量的取值,纵轴是频数或频率。
当我们把一个变量某一取值的相对频数限制在另一变量某一取值的条件下以后,我们称之为条件相
对频数(conditional relative frequency)。如在所有南京的女性顾客中,完全赞成的占34.44%。这里的条 件就是南京,然后我们关心南京范围内赞成的比例有多少。
Statistics: principle and application 南京大学金陵学院 19


4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。 下表展现了不同城市的女性对新款夏装的接受态度的调查数据表 表1.3 列联表
对新款夏装的态度 非常喜 欢 城 市 南京 上海 苏州 杭州 北京 Column Total Statistics: principle and application 52 35 96 21 31 235 有点 喜欢 58 48 28 41 48 223
1
知识结构图
一维频数分布表 点图 单变量分类数据 条形图 帕累托图 饼图 累积频数分布图 分类变量 列联表(二维表) 对比条形图
双变量分类数据
条件相对频数图 两个变量的关系(独立) 辛普生悖论(潜在变量)
Statistics: principle and application
南京大学金陵学院
2
主要内容
南京大学金陵学院
13
1.2 频数分布表


(3)帕累托图
帕累托图就是把普通条形图中每个变量的取值出现的频数从左到右、从大到小排列。
图1.5 饮料的帕累托图
帕累托图表明,该商店主要销售的饮料为可口可乐和旭日升冰茶。
Statistics: principle and application
南京大学金陵学院
14
1.2 频数分布表

(4)饼图
图1.6 饮料的饼图

饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要 用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
Statistics: principle and application
南京大学金陵学院
15
1.2 频数分布表
Statistics: principle and application
南京大学金陵学院
17
1.2 频数分布表

(2) 对比条形图(Double bar chart)
图1.7 对比条形图
通过对比条形图中我们可以知道不同态度的消费者在各个城市中的对比,也可以 知道相同城市的不同态度消费者数量的对比。
第1讲 分类变量的描述统计
描述统计主要分为分类变量(categorical variables)的描述统 计和数值型变量(quantitative variables)的描述统计,本讲 先讨论分类变量的描述统计。
Statistics: principle and application
南京大学金陵学院
南京大学金陵学院
7
1.2 频数分布表

表1.1是一家超市某天50名顾客购买饮料品牌的频数分布表 表1.1 频数分布表
品牌名称 百事可乐 频数 9 频率 0.18 百分比频数 18%
汇源果汁
可口可乐 露露
6
15 9
0.12
0.3 0.18
12%
30% 18%
旭日升冰茶
11
0.22
22%
Statistics: principle and application
1.2 频数分布表

(4)用条件相对频数表示的对比条形图
图1.8 上海与南京的对比条形图
Statistics: principle and application 南京大学金陵学院 20
1.3 两个分类变量的关系



1.列联表中两个变量间的关系分为独立(independent)和不独立(not independent)(即相关)两种。 如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这 个两个变量是独立的,这表明这些变量之间没有关联。 世纪海难泰坦尼克号沉没事件中乘客性别和是否生还的列联表如下:
Statistics: principle and application 南京大学金陵学院 18
1.2 频数分布表

(3)列联表的百分数 列联表有两种百分数:一、用列联表中的数据除以最后一列的数据得到行百 分数(row percent)。例如,在南京顾客中,非常喜欢的比例(行百分数)为 52/151=34.44%;二、用列联表中的数据除以最后一行的数据得到列百分数 (column percent),例如,在非常喜欢的顾客中,南京顾客的占比(列百分数) 为52/235=22.13%。
图1.1变量的类型 Statistics: principle and application 南京大学金陵学院 5
1.1 变量的类型


变量主要有如下两种类型:
1.分类变量(Categorical variables) 表现为不同的类别 如“性别”、“企业所属的行业”、“学生所在的学院” 等 分类变量可以分为不可排序的(“性别”)和可以排序的(“产品等级”) 分类变量的观察结果就是分类数据(categorical data) 2.数值型变量(Quantitative variables) 可以用阿拉伯数据来记录其观察结果 如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的 点数” 数值型变量的观察结果称为数值型数据 (metric data)

1.1 变量的类型 1.2 频数分布表 1.3 两个分类变量的关系
Statistics: principle and application
南京大学金陵学院
3
学习目标及重难点
【学习目标】: 1.用频数分布表描述数据的分布 2.用点图、条形图等图形来展示数据 3.用列联表分析两个分类变量之间的关系 【重难点】: 1.掌握用条件相对频数表示的对比条形图 2.两个分类变量是否独立
Statistics: principle and application
南京大学金陵学院
9
1.2 频数分布表

表1.2是住房满意度调查的累积频数分布表
表1.2 累积频数分布表
某城市家庭对住房状况评价的频数分布 回答类别 向上累积 频数 24 百分比频数% 8 累积频数 24 累积百分比% 8 向下累积 累积频数 300 累积百分比% 100

既不反对
也不喜欢 25 40 13 50 45 173
有点不 喜欢 12 21 7 23 19 82
完全不 喜欢 3 9 10 18 10 50
不知 道 1 2 0 3 3 9
Row Total 151 155 154 156 156 772 南京大学金陵学院 16
1.2 频数分布表


(1)列联表 由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各 个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。 比如上表中的“南京”这一行的数字52,表明有52名南京女性顾客非常喜欢 新夏装的款式。构成列联表的变量都是分类变量。一个 r 行 c 列的列联表称 为 r×c 列联表,一般的把2×2的二维列联表又称为交叉表(cross table)。 上表还展示了每一行人数的总和及每一列的总和,分别放在最后一列和最 后一行中。实际上,最后一行就是对新款夏装态度的频数分布。列联表的最 后一列反应的是变量“城市”的频数分布。在统计上就把列联表的这两部分 数据称为对应变量的边缘分布(marginal distribution)。
南京大学金陵学院
8
1.2 频数分布表



对于另一种可排序的分类数据,我们还可以做累积频数表 (cumulative frequency table)。 累积方法有两种:一种是从类别顺序的开始一方向最后一方累积 频数,称为“向上累积”;一种是从类别顺序的最后一方向开始 一方累计频数,称为“向下累积”。 累积频数(Cumulative frequency):各类别频数的逐级累加 累积频率(Cumulative percentage):各类别频率(百分比)的逐级 累加
这个关系要对所有的单元格都成立。例如,是男性并且生还的期望数量应该是
2201 P (男性,生还)=
1731 711 559.17 2201
而是男性并且生还的实际观测值为 367人,说明性别和生还与否之间是有关系的。我们在后面 的章节中会对这个问题作更进一步的讨论。
Statistics: principle and application
相关主题