当前位置:
文档之家› 第三章 统计资料的收集与整理
第三章 统计资料的收集与整理
间 50 名 工 人 日 加 工零件数如下(
108 131
125
117 122
133
126 122
118
108
单 位 : 个 ) 。 试 110 118 123 126 133 134 127 123 118 112
采用单变量值对 数据进行分组。
112 134
127
123 119
113
120 123
2. 普查
全面调查
3. 抽样调查
4. 重点调查
非全面调查
5. 典型调查
统计报表
统计报表(Statistical Report Forms) 是指依照国家统计局或国家各行政管理部 门的规定,自上而下地统一布置,以一定 的原始记录为依据,按照统一的表式,统 一的指标项目,统一的报送时间与报送程 序,自下而上地逐级定期提供基本统计资 料的一种调查方式。
1. 用于显示未分组的原始数据的分布
2. 由“茎”和“叶”两部分构成,其图形是由数字组 成的
3. 以该组数据的高位数值作树茎,低位数字作树叶
4. 对于n(20≤n≤300)个数据,茎叶图最大行数不超过
L = [ 10 × log 10 n ]
5. 茎叶图类似于横置的直方图,但又有区别
直方图可大体上看出一组数据的分布状况,但没有给出 具体的数值
例题1 例题2 扩展表
例题
扩展表
统计表的结构
从形式来看要素包括:总标题、横行标题、纵行标题、 数字资料。 表示统计研究的对象,称主词 ;其余的是宾词。
表例1
表例2
表例3
图例1
图例2
频数分布表的编制
(实例)
【例1】某生产车 117 122 124 129 139 107 117 130 122 125
举例1:绘制直方图、散点图、折线图 举例2:绘制条形图、饼图、环形图 举例3: 茎叶图
原始资料
原始资料也称为第一手资料, 是反映被调查对象原始状况的资料。 如原始记录、统计台帐、调查问卷 答案、实验结果等。
举例:数据集03、数据集04
次级资料
次级资料也称为第二手资料, 是已经存在的经他人整理分析过 的资料。如期刊、报纸、广播、 电视以及因特网上的资料,各级 政府机构公布的资料,企业内部 记录和报告等。
一览表是一张调查表式可登记多个单位的 调查资料。
它的优点是当调查项目不多时,应用一览 表能使人一目了然,还可将调查表中各有 关单位的资料相互核对,其缺点是对每个 调查单位不能登记更多的项目。
统计调查方 1. 现场观察法 法 2. 报告法 3. 问卷法 4. 访谈法 5. 实验采集法
统计调查
1. 统计报表 组织方式
数据中华
统计调查方案
调查必然产生误差 调查时都会使用调查表
统计误差
登记误差是由于调查过程中各有关环节工作的失 误而造成的。 代表性误差是由于非全面调查只观察总体一部分 单位,这部分单位不能完全反映总体的性质而产 生的误差。 (系统误差 抽样误差)
• 不遵循随机原则,有意识多选好的单位或 较差的单位进行调查而造成的系统性误差 。
举例:数据集01、数据集02
链接
世界银行的数据库
/data-query/
数据中华—情报分析
/DataCenter/GeneralData.asp
世界银行1
世界银行2
世界银行3
世界银行4
0 1985
1990
人均GDP
1995
2000
人均GDP 2005
折线图
6000
收 入 4000 (元)
2000
城镇居民 农村居民
0 1991 1992 1993 1994 1995 1996 1997 1998
图3-7 城乡居民家庭人均收入
对总体而言是“分”,即将总体分为性质相异 的若干组成部分;对个体而言是“合”,即将 性质相同的个体组合起来。
——组内同质性,组间差异性
统计分组的方法:(1)正确选择分组标志
(2)正确确定各组的界限
次数分布表的编制步骤
①排序并求出全距(最大值—最小值);
②确定组数和组距; ③确定组限; ④归组并计算出各组的次数; ⑤显示或打印出次数分布表。
统计表
统计表是把通过整理的由统计调查所 得来的原始资料,使其成为得以说明社会现 象及其发展过程的数据,并按一定顺序排列
在表格中而形成的。
1. 统计表的结构
2. 统计表的分类(分组结果)
简单表 简单分组表 复合分组表
3. 统计表设计规则(书P56 七条)
统计图
统计图是统计资料的一种表达方式,它可 以简洁直观地表示数据,可以帮助我们从众多 的数据中发现规律,可以更迅速、更有效地传 递信息,给人以明确而深刻的印象。
关键词:重点调查单位,是指这些被调查的总 体单位中数目不多,所占比重不大,但其调查 的标志值却在总量中占有很大比重,在总体中 具有举足轻重的作用。
典型调查
典型调查(Model Survey)是指根据调 查目的,在对所研究现象全面分析的基础 上,有意识地选择有代表性的典型单位进 行深入细致地调查,以便认识事物的本质 与发展变化规律的一种非全面调查方法。
抽样误差是指在遵循了随机原则的条件下, 不包括登记误差和系统性误差在内的,用 样本指标代表总体指标而产生的不可避免 的误差 。
调查表
调查表一般有两种:一种是一览表,另一种是单一表。
• 单一表是每张调查表式只登记一个调查 单位的资料,常在调查项目较多时使用。
• 它的优点是便于分组整理,缺点是每张 表都注有调查地点、时间及其他共同事 项,造成人力、物力和时间的耗费较大。
4
8
合计
50
100
等距分组表
(一般情况:上组限不在内)
表3-3 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
频率(%)
105~110
3
6
110~115
5
10
115~119
8
16
120~125
14
28
125~130
10
20
130~135
6
12
135以上
4
8
合计
50
100
茎叶图
(茎叶图的制作)
(1)统计调查方案 (2)统计调查方法
(3)统计调查的组织方式
统计资料的整理
统计资料的整理,是根据统计研究的目 的,对所收集到的大量、零星分散的原始资料 进行科学加工与综合,使之系统化、条理化、 科学化,为统计分析提供反映事物总体综合特 征资料的工作过程。
1. 统计资料的审定
2. 统计资料的分组
3. 次数分布
组中值= 下限值+上限值 2
组距分组
(步骤)
1. 确定组数:组数的确定应以能够显示数据的分布特 征和规律为目的。在实际分组时,可以按 Sturges
提出的经验公式来确定组数K
K 1 lg( n) lg( 2)
2. 确定各组的组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小值及 所分的组数来确定,即
(要点)
1. 将变量值的一个区间作为一组
2. 适合于连续变量
~
3. 适合于变量值较多的情况
~
4. 必须遵循“不重不漏”的原则 ~
5.
可采用等距分组,也可采用不 等距分组
~
~
组距分组
(几个概念)
1. 下 限:一个组的最小值 2. 上 限:一个组的最大值 3. 组 距:上限与下限之差 4. 组中值:下限与上限之间的中点值
茎叶图既能给出数据的分布状况,又能给出每一个原始 数值,保留了原始数据的信息
茎叶图
(茎叶图的制作)
树茎 树叶
数据个数
10 788
3
11 022347778889
13
12 0012222333344466777889 24
13 0133445799
10
茎叶图类似横置 的直方图
图3-1 某车间工人日加工零件数的茎叶图
其他广告 2
招生招聘广告 10
广 房地产广告
16
告 类 金融广告 9
型 服务广告
51
112
商品广告
0
40
80 人数(人) 120
图3-3 某城市居民关注不同类型广告的人数分布
某城市居民关注不同类型广告的人数构成 (饼图)
房地产广告 招生招聘广告 其他广告
8.0% 5.8% 金融广告
1.0%
4.5%
服务广告 25.5%
商品广告
56.0%
图3-4 某城市居民关注不同类型广告的人数构成
甲乙两城市家庭对住房状况的评价 (环形图)
13%
7%
10% 8%
15% 21%
33% 36%
31% 26%
非常不满意 不满意 一般 满意 非常满意
图3-5 甲乙两城市家庭对住房状况的评价
散点图
8000 7000 6000 5000 4000 3000 2000 1000
组距=( 最大值 - 最小值)÷ 组数 3. 根据分组整理成频数分布表
等距分组表
(使用开口组)
表3-2 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
频率(%)
105~109
3
6
110~114
5
10
115~119
8
16
120~124
14
28
125~129
10
20
130~134