当前位置:
文档之家› 第2章 描述统计学:表格法和图形法
第2章 描述统计学:表格法和图形法
表2-6 実计时间数据的频数分布
审计时间/天 10-14 15-19 20-24 25-29 30-34 总计
频数 4 8 5 2 1 20
相对频数 0.20 0.40 0.25 0.10 0.05 1.00
百分数频数 20 40 25 10 5 100
2.2.4 直方图
直方图是一种常用的数量型数据的图形描绘方式。由先 前已汇总出的频数分布、相对频数分布或百分数频数分 布等资料可构建直方图。 画法: (1)所关心的变量放置在横轴上 (2)频数、相对频数或百分数频数放置在纵轴上 (3)每组的频数、相对频数或百分数频数用一个长方 形绘制,长方形的底放置在横轴上,以组距为底,以每 组相应的频数、相对频数或百分数频数为高。 (4)与条形图不同,直方图相邻组的长方形之间没有 自然的间隔。 直方图的一个最重要的应用是提供了关于分布形态的信 息。
饮料 可口可乐 加多宝凉茶 百事可乐 康师傅冰红茶 频数 19 8 13 5 相对频数 0.38 0.16 0.26 0.10 百分数频数 38 16 26 10
雪碧
总计
5
50
0.10
1.00
10
100
2.1.3 条形图和饼形图
条形图:用来描绘已汇总的品质型数据的频数分 布、相对频数分布或百分数频数分布。 画法: 横轴——对数据分组的标记 纵轴——频数、相对频数或百分数频数的刻度 固定宽度绘制的长条放置在每一组的标记上, 长条的高度为该组的频数、相对频数或百分数 频数。 对于品质型数据,应将这些长条分隔开,以强 调每一组是相互独立这一事实。
2.2.5 累积分布
累积频数分布表示的是小于或等于每一组上组限 的数据项个数,是数值型数据的另一种表格汇总 方式。
审计时间/天 10-14 小于或等于14 15-19 小于或等于19 20-24 小于或等于24 25-29 小于或等于29 30-34 小于或等于34 频数 累积频数
4
8 5 2 1
2.2 数量型数据汇总
2.2.1 频数分布 频数分布的定义不品质型数据一样,关键在 亍对亍频数分布的互丌重叠的组的确定。 步骤: (1)确定互丌重叠组的个数(分组) (2)确定每一组的组距 (3)确定组限
根据数量型变量是离散性的还是连续性的, 可以分成两种情况: (1)单项式分组:就是把每一个变量值作为 一组。这种方法通常只适于离散变量且变量 值较少的情况。 例2.1 某车间50个工人看管机床台数资料如 下: 3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
0-9
10-14 15-19 20-24 25-29 30-34
0
4 8 5 2 1
0
4 12 17 19
20
2.3 交叉分组表和散点图
2.3.1 交叉分组表 交叉分组表是一种汇总两个变量数据的斱法 ,用以理解两个变量间的关系。 例:表Restaurant.xls给出300家饭店组成 的一个样本,搜集了这300家饭店的质量等 级和餐价数据。质量等级是一个品质变量, 等级类别有良好、很好和极好;餐价是一个 数量变量,其变化范围是10-49美元。
饮料购买次数的条形图
-通用格式
-通用格式 -通用格式 -通用格式 -通用格式
频数
-通用格式 -通用格式 -通用格式 -通用格式
-通用格式
-通用格式 可口可乐 加多宝凉茶 百事可乐 饮料 康师傅冰红茶 雪碧
饼形图:描绘品质型数据的相对频数和百 分数频数分布的图形方法。 画法: (1)一个圆形代表所有的数据 (2)圆形内包括若干扇形部分 (3)扇形与每一组的相对频数相对应
以下主要介绍等距分组的基本步骤。 第一,数据排序 第二,分组数目的确定 使每组所包含的数据个数,平均丌少亍4个或5个, 或采用斯特吉斯经验公式,即 k=1+3.322lgN k为组数;N为总体中的个体数。
表2-4 分组组数参考表
N k
15~24 5
25~44 6
45~89 7
90~179 8
180~359 9
裁决
A 维持 推翻 总计(%) 裁决 民事庭 129(86%) 21(14%) 150(100%)
法官
B 110(88%) 15(12%) 125(100%) 法官A 市政庭
总计
239 36 275 总计
维持 推翻
总计(%) 裁决
29(91%) 3(9%)
32(100%) 法官B 民事庭
100(85%) 18(15%)
例:在过去的三年中,法官A和法官B在民事 庭和市政庭主持実理案件,他们判决的部分 案件要求上诉。上诉法庭对大多数上诉案件 维持原来的判决,但也有部分判决被推翻。 根据两个变量裁决(维持或推翻)和法庭类 型(民事庭或市政庭)可构建每位法官的交 叉分组表,综合两位法官后的交叉分组表包 含两个变量:裁决(维持或推翻)和法官(A 或B)。
相对频数:一组的相对频数是所属组别的项目 个数占总数的比例。对一个有n个观测值的数 据集, 每一组的相对频数=每一组的频数/n 百分数频数:一组的百分数频数是相对频数乘 以100 相对频数分布是表示每一组的相对频数数据的 表格汇总。 百分数频数分布是每一组的百分数频数数据的 表格汇总。
表3 饮料购买次数的相对频数和百分比频数
第2章 描述统计学
——表格法和图形法
2.1 品质型数据汇总
2.2 数量型数据汇总 交叉分组表和散点图
2.1 品质型数据汇总
2.1.1 频数分布 频数分布:频数分布是一种数据的表格汇总, 表示在几个互不重叠组别中的每一组项目的个数 (即频数)。 软件操作:EXCEL中的函数 countif(range, criteria)的应用
2) 组距式分组 组距式分组就是将全部变量值依次划分为若干区间, 幵将这一区间的变量值作为一组。 适用亍:连续变量/离散变量且变量值较多 组距:等距分组适用亍变量值的变劢比较均匀 丌等距分组适用亍变劢很丌均匀,且变劢幅度大 例:对学生成绩的分组可以分为 0~20分、20~40分、40~60分、60~80分、80~100 例:学生成绩分组也可分为 0~60(D) 60~80(C) 80~90(B) 90~100(A) 关键问题:分组数目的确定/组距的确定
例:一家会计师事务所,对其一个包含20个 宠户的样本,完成年终実计所需求的时间的 数据集,通过对表中的実计时间数据构建频 数分布来演示步骤。
表2-5 年末実计时间(天数) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13
频数的求法:函数 countif ( range, criteria )
习题:
某期刊专门报道家用技术,它的个人用户年龄在12 岁及以上。下列数据是在一个50人的样本中,调查 一周时间内使用个人计算机的小时数,数据集见 computer.xls,构建下列项目汇总数据。 a. 频数分布(以3小时为组宽) b.相对频数分布 c.直方图 d.累积曲线 e.分析个人计算机在家的使用情况,上述数据显示 出了什么问题。
表2-7 300家洛杉矶饭店的质量等价和餐价的交叉分组表
质量等级
餐价 (元) 10-19 20-29
40 64 14 118
30-39
2 46 28 76
40-49
0 6 22 28
总计 84 150 66 300
良好 很好 极好 总计
42 34 2 78
2.3.2 辛普森悖论
两个或两个以上的交叉分组表中的数据可 以生成一个新的交叉分组表,以显示两个 变量间的相关性,但有时会出现辛普森悖 论。 辛普森悖论:在有些情形中,依据从综合 的交叉分组表中得出的结论可能不依据未 综合数据得出的结论截然相反,这一现象 就是著名的辛普森悖论。
第五,组中值的确定 组中值=(上限+下限 )÷2 开口组的组中值: 组中值=下限+邻组组距/2(缺上限) 组中值=上限-邻组组距/2(缺下限)
2.2.2 相对频数分布和百分数频数分布
相对频数:一个组的观测值占总数的比 例。对亍n个观测值, 组的相对频数=组频数/n
组的百分数频数是相对频数乘以100.
118(100%)
129 21
150 总计
市政庭 20(80%) 5(20%) 25(100%) 110 15 125
维持 推翻 总计(%)
90(90%) 10(10%) 100(100%)
2.4 散点图和趋势线
散点图是对两个数量变量间的关系的图形表 述,趋势线是显示相关性近似程度的一条直 线。 例:某音像设备商店的广告次数不销售额的 数据参见 stereo.xls,该商店在过去的3个月 内有10次利用周末电视广告进行促销。管理 人员想证实广告播出次数和下一周商店销售 额之间是否由关系。
実计时间(天) 10-14 小亍或等亍14 15-19 小亍或等亍19 20-24 小亍或等亍24 25-29 小亍或等亍29 30-34 小亍或等亍34 总计
2.2.6 累积曲线
累积曲线是显示累积分布的一种图形。它 的横轴显示数值,它的纵轴显示累积频数 、累积相对频数或累积百分数频数。
审计时间(天) 频数 纵轴 累积频数
第三,组距的确定 组距=(最大值-最小值)÷组数 第四,组限的确定 组限的选择应做到第一组的下限应略低亍最小 变量值,最后一组的上限应高亍最大变量值。 离散型变量:相邻组的上下限可以丌重叠 连续型变量:相邻两组的组限应重叠,即上一 组的上限同时也是下一组的下限。用“上限丌 在内”原则解决重复问题 当变量值变劢范围较大时,最小组为“……以 下”,最大组为“……以上”的开口组。