第二章描述统计
三、数据的排序
按一定顺序将数据排列,以发现一些明显的
特征或趋势,找到解决问题的线索。
排序有助于对数据检查纠错,以及为重新归
类或分组等提供依据;在某些场合,排序本 身就是分析的目的之一。排序可借助于计算 机完成 。
四、变量计算
变量的计算是指根据研究统计的需要,把已
经录入计算机的数据按照一定的算术表达式 或函数,计算产生一系列新变量并予以保存 的过程。 例1,以“sfgz”为变量名计算“年龄”在50岁以 下性别为“女”的职工的“实发工资”。(“实发 工资”=“基本工资”-“保险” ) 例2,根据农民工的出生年份计算、定类、定序数据的图示—环形图
环形图中间有一个“空洞”,总体中的每一部分数
据用环中的一段表示 环形图与圆形图类似,但又有区别:圆形图只能显 示一个总体各部分所占的比例;环形图则可以同时 绘制多个总体的数据系列,每一个总体的数据系列 为一个环。环形图可用于进行比较研究 。环形图 可用于展示定类和定序的数据。
f=20(10)=200
25 20 15 6 0
f=6(40)=240
10 20 30 40
x
50
90
350 300 250 200 150 100 50 0 1 2 3 µÁ Ï Ð1
f/d
35 25 20 15 6 0
f=20(10)=200
f=6(40)=240
10 20 30 40
x
50
90
三、分组数据的图示
1、直方图
f/d
用矩形的宽度和高度来表 35
示 频 数分 布 的 图 形 ,实 际 上 是 用矩 形 的 面 积 来表示 各 组 的频 数 分 布 。 在 直 角 坐 标 中, 用 横 轴 表 示数据 分 组, 纵 轴 表 示 频 数或频 率 ,各组 与 相 应 的 频数就 形成了一 个矩形 , 即直方 图 (Histogram) 。 分 别 称 为 次 数 直方 图 或 者 百 分率直 方图。
长率
甲校学生的父亲职业
f 110 152 288 550 p 0.200 0.276 0.524 1.000 % 20.0 27.6 52.4 100.0
职业 干部 工人 农民 总数
二、定类数据的图示——条形图、圆形图
条形图是用宽度相同的条形的高度或长短来表示数据变动的图
形;条形图有单式、复式等形式 在表示定类数据的分布时,是用条形图的高度来表示各类别数 据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图, 也可以放在横轴,称为柱形图
350 300 250 200 150 100 50 0 1 2 3
0 50 100 150 200 250 300 350 3
µ Á Ï Ð 1
2
µ Á Ï Ð 1
1
1 2 3
1 2 3
三、定序数据的整理(可计算的指标)
计算指标:频数、累计频数、百分率、累 计百分率 适用于简化定类资料的技术也适用定序资 料,但以下技术适用于定序资料 1. 累计频数:将各类别的频数逐级累加 2. 累计频率:将各类别的频率(百分比)逐 级累加
频数(fi)
1 2 5 10 19 25 17 12 5 3 0 1
频率(Pi)
0.01 0.02 0.05 0.10 0.19 0.25 0.17 0.12 0.05 0.03 0.00 0.01
合计
——
100
——
上下组限重叠分组,恰等于某一组限的数据(如下 表中身高164厘米)归于哪一组? 应该按照“上限不包括在内”的原则处理。这就 是说,164应归于“164—168”这一组,而不应归 于“160—l64”这一组。
X L PR c%b ( )r % i
X L PR c%b ( )r % 77分在全班同学成绩的百分比等级 i
PR=百分比等级 C%b=低于临界组距下限的累积百分比
X=需要计算的原始分数
L=临界组距的下限 i=组距的大小
r%=临界组距的百分比
X L 77 69.5 PR c%b ( )r % 35.0 ( )30% 57.5 i 10
(二)二手数据的审核
适用性审核:弄清楚数据的来源、数据的 口径以及有关的背景材料;确定这些数据 是否符合自己分析研究的需要。
时效性审核:应尽可能使用最新的统计数 据,确认是否必要做进一步的加工整理。
二、数据的筛选
对审核过程中发现的错误应尽可能予以纠正。
当发现数据中的错误不能予以纠正,或者有些 数据不符合调查的要求而又无法弥补时,需要 对数据进行筛选 数据筛选的内容包括: 1.将某些不符合要求的数据或有明显错误的数 据予以剔除 2.将符合某种特定条件的数据筛选出来,而将 不符合特定条件的数据予以剔出
男青年身高按4厘米的间距分组时的频数分布 身高间距(厘米) 组中值 (Xi)
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 188―192 192―196 150 154 158 162 166 170 174 178 182 186 190 194
一、定类数据的整理(基本过程)
1.列出各类别; 2.计算各类别的频数; 3.制作频数分布表; 4.用图形显示数据。
可计算的指标:
1.频数:落在各类别中的数据个数 2.比例:某一类别数据占全部数据的比值 3.百分比:指定的比例乘以100. 4.比与比率:性别比、出生率、死亡率、人口自然增
(一)组距分组要点
1.将变量值的一个区间作为一组 2.适合于连续变量 3.适合于变量值较多的情况
必须遵循“不重不漏”的原则;可采用等距分
组,也可采用不等距分组
(二)组距分组的原则
1.分组应使各类别构成之和等于总体
“穷举” “互斥”
2.分组设计应能反映统计总体的分布规律性
统计分组主要是为了能很好地反映统计总体的构 成状况,即反映总体中各单位的分布特征。分组设计 要适应这一要求,必须在分组后使总体单位总数在各 组的分配情况能够反映总体的分布规律性。
1 2 3 4
第三节 定距数据的整理与显示
适用于简化品质数据的技术同样 适用于数值型数据 一、单变量值分组(要点)
1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况 例1 统计某社区家庭户人口数分 布情况。
某社区家庭户人口数统计表
人口数(X)
2 3 4 5 6 7 8
第二节
定类、定序数据的 整理与显示
原始资料杂乱无章,需加整理,才能为人
所用。统计资料的整理,其基础是统计分 组。所谓统计分组.就是按统计研究的目 的和要求,将总体单位或全部调查数据按 一定的标志划分成若干组,使组内差异尽 量小,而组与组之间则有明显差异,从而 使原本杂乱无章的资料有序化,以便为在 统计分析中提炼各种有用信息打下基础。
第一部分:描述统计
第二章 组织数据 第三章 集中趋势的测量 第四章 变异性的测量
第二章 组织数据
数据的预处理
主要内容
定类、定序数据的整理 与显示 定距数据的整理与显示
统计表
第一节
数据的预处理 数据审核 数据筛选 数据排序 变量计算
一、数据的审核
(一)原始数据的审核 逻辑检查:从定性角度,审核数据是否符合 逻辑,内容是否合理,各项目或数字之间有 无相互矛盾的现象。(主要用于对定类数据 和定序数据的审核) 计算检查:检查调查表中的各项数据在计算 结果和计算方法上有无错误。(主要用于对 定距数据的审核)
(六)频数密度计算
男青年身高分组数据表
男青年按身高分组 (厘米) 148―156 156―164 164―168 168―172 172―176 176―180 180―188 188―196
合计
频数
3 15 19 25 17 12 8 1 100
组距
8 8 4 4 4 4 8 8 ——
频数密度
3/8 15/8 19/4 25/4 17/4 12/4 8/8 1/8 ——
有了这一规定,就不会在编制连续变量的数列时 ,发生违背“穷举”与“互斥”这两个基本原则 的情况了。
(五)内插法求百分比等级
成绩 90-99 80-89 70-79 60—69 50—59 40—49 合计 频数 3 4 6 3 2 2 20 百分比 累计频数 15 20 20 17 30 13 15 7 10 4 10 2 100 累计百分比 100 85 65 35 20 10
(四)几个概念
1、 分组数据的最大值与最小值
2、分组数据的真实上限与真实下限
90~94,95~99,100~104 3、 组距:真实上限与真实下限之差 4、组距中位点:一组数据中最居中的数值。 m=(最大值+最小值)/2,
等距分组表的几种形式:
(1)上下组限重叠; (2)上下组限间断
直方图与条形图的区别: ( 1)条形图是用条形的长度 (横置时 )表示各 类别频数的多少,其宽度 ( 表示类别 ) 则是固 定的;直方图是用面积表示各组频数的多少, 矩形的高度表示每一组的频数或百分比,宽 度则表示各组的组距,其高度与宽度均有意 义。 (2)直方图的各矩形通常是连续排列,条形 图则是分开排列。
等距分组与不等距分组在频数分布上的差异 等距分组:各组频数的分布不受组距大小的影
响;可直接根据绝对频数来观察频数分布的特 征和规律。 不等距分组:各组频数的分布受组距大小不同 的影响;各组绝对频数的多少不能反映频数分 布的实际状况,需要用频数密度(频数密度= 频数/组距)反映频数分布的实际状况。