当前位置:
文档之家› 第二章描述统计_PPT幻灯片
第二章描述统计_PPT幻灯片
四、变量计算
变量的计算是指根据研究统计的需要,把已 经录入计算机的数据按照一定的算术表达式 或函数,计算产生一系列新变量并予以保存 的过程。
例1,以“sfgz”为变量名计算“年龄”在50岁以 下性别为“女”的职工的“实发工资”。(“实发 工资”=“基本工资”-“保险” )
例2,根据农民工的出生年份计算他们的周岁 。(“周岁”=2011-“出生年份”)
第二章 组织数据
主要内容
数据的预处理
定类、定序数据的整理 与显示
定距数据的整理与显示
统计表
第一节 数据的预处理
数据审核 数据筛选 数据排序 变量计算
一、数据的审核
(一)原始数据的审核 逻辑检查:从定性角度,审核数据是否符合 逻辑,内容是否合理,各项目或数字之间有 无相互矛盾的现象。(主要用于对定类数据 和定序数据的审核)
通过频次统计可以了解数据的分布情况。
(一)组距分组要点
1.将变量值的一个区间作为一组 2.适合于连续变量 3.适合于变量值较多的情况 必须遵循“不重不漏”的原则;可采用等距分
组,也可采用不等距分组
(二)组距分组的原则
1.分组应使各类别构成之和等于总体
“穷举”
“互斥”
2.分组设计应能反映统计总体的分布规律性
75.6
22
90
100.0
甲校学生家庭月收入
收入(元)
f
1500-1899 40
1300-1499 141
500-1299 369
总数
550
cf↑ 550 510 369
cf↓ 40 181 550
四、定类、定序数据的图示—环形图
环形图中间有一个“空洞”,总体中的每一部分数 据用环中的一段表示
按 Sturges 提出的经验公式来确定组数:
K=1+(lg n / lg2)
其中n为数据的个数(经验公式而已)
2.确定各组的组距:组距是一个组的上限与下 限之差,可根据全部数据的最大值和最小值及
所分的组数来确定,
等距分组组距=(最大值 - 最小值)÷ 组数
3.根据分组整理成频数分布表
(四)几个概念
一、单变量值分组(要点)
1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况 例1 统计某社区家庭户人口数分 布情况。
某社区家庭户人口数统计表
人口数(X)
户数(f)
频率(P)
2
5
0.10
3
8
0.16
4
16
0.32
5
10
0.20
6
6
0.12
7
4
0.08
8
1
0.02
合计
1、 分组数据的最大值与最小值 2、分组数据的真实上限与真实下限
90~94,95~99,100~104 3、 组距:真实上限与真实下限之差 4、组距中位点:一组数据中最居中的数值。
m=(最大值+最小值)/2,
计算检查:检查调查表中的各项数据在计算 结果和计算方法上有无错误。(主要用于对 定距数据的审核)
三、数据的排序
按一定顺序将数据排列,以发现一些明显的 特征或趋势,找到解决问题的线索。
排序有助于对数据检查纠错,以及为重新归 类或分组等提供依据;在某些场合,排序本 身就是分析的目的之一。排序可借助于计算 机完成 。
在表示定类数据的分布时,是用条形图的高度来表示各类别数 据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图, 也可以放在横轴,称为柱形图
350
300
250
200 系列1
150
100
50
012Fra bibliotek33
2
系列1
1
0
50
100
150
200
250
300
350
1
1
2
2
3
3
三、定序数据的整理(可计算的指标)
50
1.00
二、组距分组
根据统计研究的需要,将数据按照某种标准 重新划分为不同的组别。
例:把“居民储蓄调查数据(存款)”中的 存款数额(定距数据)按:1000元以下, 1001-3000,3001-6000,6001-10000; 10001-15000;15001-20000,20001元以上 分组。
一、定类数据的整理(基本过程)
1.列出各类别; 2.计算各类别的频数; 3.制作频数分布表; 4.用图形显示数据。
可计算的指标:
1.频数:落在各类别中的数据个数 2.比例:某一类别数据占全部数据的比值 3.百分比:指定的比例乘以100. 4.比与比率:性别比、出生率、死亡率、人口自然增
计算指标:频数、累计频数、百分率、累 计百分率
适用于简化定类资料的技术也适用定序资 料,但以下技术适用于定序资料
1. 累计频数:将各类别的频数逐级累加 2. 累计频率:将各类别的频率(百分比)逐
级累加
某高校专业教师学历统计表
学历
学士 硕士 博士
人数
累计频数
累计百分率
26
26
28.9
42
68
第二节 定类、定序数据的 整理与显示
原始资料杂乱无章,需加整理,才能为人 所用。统计资料的整理,其基础是统计分 组。所谓统计分组.就是按统计研究的目 的和要求,将总体单位或全部调查数据按 一定的标志划分成若干组,使组内差异尽 量小,而组与组之间则有明显差异,从而 使原本杂乱无章的资料有序化,以便为在 统计分析中提炼各种有用信息打下基础。
统计分组主要是为了能很好地反映统计总体的构 成状况,即反映总体中各单位的分布特征。分组设计 要适应这一要求,必须在分组后使总体单位总数在各 组的分配情况能够反映总体的分布规律性。
100名学生的成绩分布
成绩
组中值
人数
41-60
20
61-80
50
81-100
30
合计
100
(三)组距分组的步骤
1.确定组数:组数的确定应以能够显示数据的 分布特征和规律为目的。在实际分组时,可以
长率
甲校学生的父亲职业
职业 干部 工 人 农民 总数
f 110 152 288 550
p 0.200 0.276 0.524 1.000
% 20.0 27.6 52.4 100.0
二、定类数据的图示——条形图、圆形图
条形图是用宽度相同的条形的高度或长短来表示数据变动的图 形;条形图有单式、复式等形式
环形图与圆形图类似,但又有区别:圆形图只能显 示一个总体各部分所占的比例;环形图则可以同时 绘制多个总体的数据系列,每一个总体的数据系列 为一个环。环形图可用于进行比较研究 。环形图 可用于展示定类和定序的数据。
1 2 3 4
第三节 定距数据的整理与显示
适用于简化品质数据的技术同样 适用于数值型数据