统计学第三章
按数量标志分组的组限应是决定事物性质的数量界限。 组限的确定:
间断组距式分组:相邻两组的上、下组限的取值是间断的。(离散变量) 连续组距式分组:相邻两组的上、下组限的取值是连续的。(连续变量)
5.
组中值:各组变量范围的中间数值,反映各组变量值的一般水平。
1.
组中值=(上限+下限)/2
6.
是统计工作必不可少的中间环节。 实现从个体单位标志值过渡到总体数量特征值的必经阶段。 统计资料整理的质量如何,会直接影响统计分析的效果。 统计整理方案 统计资料审核 统计资料的分组和汇总 编制统计图表 统计资料的积累和保管
内容(程序):
案例
分配数列(频数分布)
分组数据的图示
(直方图的绘制)
品质数列 分配数列 变量数列
组距数列 单项数列 等距数列
异距数列
品质数列
•
品质数列是按品质标志分组形成的分配数列 例如,我国第五次人口普查人口文化程度构成情况 单位:人 按文化程度分组 绝对数人数 比重(%) 大专及以上 高中和中专 初中 小学 文盲 合计 4571 14109 42989 47334 8950 112953 3.88 11.96 36.45 40.13 7.58 100.0
90--100 合计
累计次数--—截至某一组累积起来的总次数。分为较小制累计和较大制累计。
较小制累计—-从最小一组的次数起逐项累计,表示小于该组上限的次数共有多少。
较大制累计—-从最大一组的次数起逐项累计,表示大于该组下限的次数共有多少。
变量数列的表示方法2
12 10 8 6 4 2 0 50-60 60-70 70-80 80-90 90-100
统计表的结构
2007年全国国民生产总值
国民生产总值 项目 产值(亿元) 第一产业
横行标题 (横标目) 总标题
纵栏标题 (纵标目)
比重(%) 11.7 49.2
数字资料
28910 121381 96328 246619
宾词
第二产业 第三产业 合计
主词
39.1 100.0
统计表的种类
简单表举例
1.
2.
离散型变量可以用相另两个变量值 作为两个相另组的上、下限: 例如,职工人数分组 100人以上 100—499 500—999 1000人以上
400斤以下
400—800 800—1000
1000斤以上
异距数列
各组组距不全相等的组距数列,叫异距数列。例如,
人口按年龄分组 1岁以下(婴儿组) 1~7岁(幼儿组) 7~17岁(学龄儿童组) 17~55岁(有劳动能力的人口组) 55岁以上(老年组) 合 计 人口数(万人) 1 6 12 24.6 8.1 51.7
统计数据
的整理与显示
刘锦雯
第一节 统计数据整理的概念与步骤
第二节 统计分组
第三节 分配数列 第四节 统计数据的显示
第一节 统计整理
概念:统计整理,就是根据统计研究的目的,对调查所 搜集到的原始资料进行科学加工,使之系统化、条理化, 以得出反映事物总体综合特征的资料的工作过程。 作用:
17 28 40 70 32.5 10 --
案例
•
• • •
•
某班40名学生考试成绩为: 89 88 76 99 74 60 82 60 89 86 93 99 94 82 77 79 97 78 95 92 87 84 79 65 98 67 59 72 84 85 56 81 77 73 65 66 83 63 79 70 将上述资料按数值大小排列为: 56 59 60 60 63 65 65 66 67 70 72 73 74 76 77 77 78 79 79 79 81 82 82 83 84 84 85 86 87 88 89 89 92 93 94 95 97 98 99 99 经初步整理可看出,资料的最小值为56,最大值为99,全距=99-56=43. 本例变量为连续型,应取标志值变动的一个区间作为一组,应采用组 距数列。 学生成绩的数量特征分为:优、良、中、及格、不及格,为将本班成 绩分布的数量特征反映出来,应该分为五个组, 全距R 43 组距i 8.6 10 这时, 组数K 5
较小制累计
人数 2 9 20 32 40 -比率% 5.0 22.5 50.0 80.0 100.0 --
比率 人数 (频率) % 2 7 11 12 8 40 5.0 17.5 27.5 30.0 20.0 100.0
较大制累计
人数 40 38 31 20 8 -比率% 100.0 95 77.5 50.0 20.0 --
比重(%)
16.7 22.2 33.3 16.7 11.1
90以下 90--100 100--110 110--120 120以上
组距为 10
125
合计
变量值
180
次数
100.0
频率
变量数列的编制
1. 2.
将原始资料从大到小排列起来 确定变量数列的形式:是采用单项数列?组距数列? 根据变量的类型和变动的幅度来定: 变量的类型 变动的幅度 离散型变量 个数少,变动幅度不大 单项数列 个数多,变动幅度大 连续型变量
分组的方法
品质分组的方法:可以将总体中的不同属性分开; 品质标志的复杂分组称为分类,形成分类目录。 数量分组的方法: 1) 单项式分组:即一个变量值代表一个组;适用于变异范围小的离散变量 2) 组距式分组:一组变量值代表一个组:适用于连续变量和变异范围大的 离散变量
统计分组的种类
品质分组 统计分组 数量分组
我一眼就看出 来了,销售量 在170~180 之间的天数最 多!
频 数
30 25
直方图下的面 积之和等于1
(天) 20 15
10
5
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
第二节 统计分组
概念:统计分组就是根据统计研究的目的,按照某个或某几个重要标志 将总体划分为若干性质不同的部分或组的一种统计方法。 分——突出组与组的差异性,将性质不同的总体单位分配到不同组 组——突出组内的同质性,将性质相同的总体单位归并到同一组里 遵循两个原则:
开口组:在组距分组中,缺少下限或上限的组被称为开口组。
缺上限的开口组组中值=下限+(邻组组距)/2 缺下限的开口组组中值=上限--(邻组组距)/2
3.3分配数列及其种类
概念:在统计分组的基础上,将总体的所有单位按组 归类整理,并按一定的顺序排列,形成总体单位在各 组之间的分布,称之为频数分布、次数分布或分配数 列。 构成:分配数列是由分组标志序列和各组相对应的分 布次数两个要素构成。 种类:
累计次数分布折线图
45 40 35 30 25 20 15 10 5 0 60 70 80 90 100 人数向上累计 人数向下累计
次数分布的主要类型
钟型分布
U型分布
J型分布
3.4 统计表
概念:将汇总整理后得出的一些系统化的统计资料, 料系统化、条理化,更清晰地表 述统计资料的内容。 2. 便于比较各项目(指标)之间的关系,便于计算。 3. 比文字叙述更紧凑、简明、醒目,一目了然。 4. 积累和保存统计资料的良好方式。
次数
34.8
17.4 100.0
频率
组距数列
组距数列是总体按组距式分组而形成的变量数列 每个组是由若干个(一组)变量值形成的区间表示, 在变量值个数较多、变动幅度较大时采用。 某工厂工人完成生产定额情况表
例如,
工人按完成生产定 额分组(%)
开 口 组
组中值
上限
工人数
绝对数
85 95 105 115 30 40 60 30 20
复合表举例
某年某地区工业企业净产值和职工人数
项目 大 国有 中 小 大 集体 中 净产值(万元) 9750 8600 4200 7300 5200 职工人数(人) 13800 45000 10050 7500 10400
小 合计
4400 39450
4500 91250
宾词指标的设计1
简单设计 案例: 某地区工业企业的工人性别和工龄
3.
简单表—主词未经任何 分组的统计表。 分组表—主词按照某一 标志进行了分组的统计 表。 复合表—主词按照两个 或两个以上标志进行复 合分组的统计表。
某年某地区棉纺公司所属棉纺织厂总产值资料 企业名称 第一棉纺织厂 第二棉纺织厂 第三棉纺织厂 第四棉纺织厂 合计 总产值(万元) 6000 7000 5500 4500 23000
单项数列
单项数列是总体按单项式分组而形成的变量数列。 一个变量值为一个组,按大小顺序排列,在组数不多和组值变动 幅度不大时采用。 例如, 某厂第二季度工人平均日产量
工人平均日产量(件) 2 3 4 工人数
绝对数
10 15 30
比重(%)
8.7 13.0 26.1
5
6 合计
变量
40
20 115
穷尽性原则——不漏,使总体每一个单位都有“组”可归; 互斥性原则——不重,使总体任一个单位只能归属于某一个组
作用: 划分社会经济现象的类型 研究事物的内部结构 分析现象间的依存关系 统计分组的种类 按分组标志的多少:简单分组和复合分组 简单分组又称单一分组,就是对被研究现象总体只按一个标志进行的分 组。其特点是只能反映现象在某一个标志特征方面的差异情况,而不能 反映现象在其他标志特征方面的差异,说明问题比较简单明了。