当前位置:文档之家› 统计学第三章 统计整理

统计学第三章 统计整理

第三章 统计整理
一、统计数据的预处理 二、数据分组与频数分布 三、统计表和统计图
统计数据的整理(summarizing data)是指 对所搜集的数据进行加工整理、使之系统化、 条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组 汇总
一、数据的预处理 数据的审核、筛选与排序
(一)品质数据的分组与频数分布
例6: 50个计算机购买者所购买的不同品牌的机型数据
IBM Gateway200 IBM Apple Compaq IBM Apple Compaq Apple Table, Data from a sample of 50 computer purchases(11/15,1994) IBM Packard Bell Compaq IBM Packard Bell Packard Bell Apple Compaq Apple Apple IBM Apple Compaq Compaq Compaq Gateway2000 Packard Bell Apple Apple Compaq Compaq IBM Compaq Packard Bell Gateway2000 IBM Packard Bell Gateway200 Packard Bell Packard Bell Apple Packard Bell Packard Bell Gateway200 Packard Bell Apple Compaq IBM Apple Apple Compaq
1. 数据的审核

发现数据中的错误 找出符合条件的数据
2. 数据的筛选 3. 数据排序

发现数据的基本特征 升序和降序
数据的审核
审核的内容 1. 完整性审核
– – – – – 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 检查数据是否真实反映客观实际情况,内 容是否符合实际 检查数据是否有错误,计算是否正确等 如:文化程度:小学 职业:大学教师
将某些不符合要求的数据或有明显错误的数
据予以剔除 将符合某种特定条件的数据筛选出来,而不 符合特定条件的数据予以剔出
数据的排序
(要点)
1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据 3. 在某些场合,排序本身就是分析的目的之 一 4. 排序可借助于计算机完成
分组与求频数 : Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases
Company Apple Compaq Gatewy2000 IBM Packard Bell Total Frequency 13 12 5 9 11 50 Relative Frequency 0.26 0.24 0.10 0.18 0.22 1.00 Percentage Frequency 26 24 10 18 22 100
三、频数/次数分配的图示
品质数据往往使用柱状图(Bar graphs)和饼状图(Pie Charts); 数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎 叶图(Stem-and-leaf display) 。 Fig1, Bar Graph of Computer Purchases
(二)数值数据的分组与频数分布
可先将数据进行排序,然后根据需要分组; 对较少的数据也可不排序直接根据需要分组。 ◐分组计频基本步骤:
确定组数 确定组距(按组)整理成分布频数表
例:一会计事务所对其20家客户(clients)年底帐目 辑核(audits)时间(天)统计如下表:
12 22 Table Year-End Audit Times(in days) 14 19 18 15 15 18 17 20 27 23 22 21 33 28 14 18 16 13
14 12
Fre que nc y
10 8 6 4 2 0
A
p
e pl C
om
q pa G at ew
2 ay
0 00
IB
M c a P k
d ar
B
l el
• 柱状图是一种图形方法,用于描述已经 被汇总为频数分布、相对频数分布或百 分比频数分布的数据。 • 在图的横轴上,规定对数据分组(类) 的标记。在纵轴上标有频数、相对频数 分布或百分比频数的刻度。
◎ 频数分布或次数分布(Frequency distribution): 全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes. ◎相对频数(Relative frequency)/频率/比重:各组频 数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n) ◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.
其中N为数据的个数(总体单位数或样本数), 一般对结果取整数。
上例中:K=1+lg20/lg2=1+4.32=5.325
第二步,确定组距(Width of classes):组距是 一个组的上限与下限之差,可根据全部数据的最 大值和最小值及所分的组数来确定:
组距=(最大值 - 最小值)/组数
上例中,组距=(33-12)/5=4.2,可取整数5为最 后选定的组距。 第三步,确定各组组限(Class limits)并据此整 理频数分布表。
22%
26% Apple Compaq Gatewy 2000 IBM packard Bell 24%
18% 10%
Fig 1 Pie Chart of Computer Purchases
• 饼状图是另一种表示相对频数和百分比 频数分布的图形方法。饼状图中的每一 部分所显示的数值可以是频数、相对频 数、或者百分比频数。
上例是离散型数据(天),采用组限间断方法,因此可得 频数分布表如下: Table, Frequency distribution, relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time(days) Frequency Frequency 10~14 4 0.20 20 15~19 8 0.40 40 20~24 5 0.25 25 25~29 2 0.10 10 30~34 1 0.05 5 Total 20 1.00 100
(二)茎叶图
茎叶图是一种既给出数据的分布状况,又能 显示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data. 茎叶图由两部分组成:茎(stem)与叶(leaf) 茎:通常由每组数的高位数值(leading digits) 形成,按组竖立在左边; 叶:通常由每组数的低位数值(last digits)形成, 按组横排在“茎”的右边。
The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.
▼注意: 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因 此, 最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值; 另外,数据在每组中的归属习惯上采用“上组限 不在内”。 2、对离散型数据,可采用相邻两组组限间断的办 法解决“不重”的问题(如6~10,11~15,16~20 等); 对连续型数据,往往采用相邻两组组限重叠, 根据“上限不在内原则”解决“不重”问题(如 [5,10),[10,15),[15,20)等)。
数据的排序
(方法)
1. 定类数据的排序 字母型数据,排序有升序降序之分,但习惯上
用升序 汉字型数据,可按汉字的首位拼音字母排列, 也可按笔画排序,其中也有笔画多少的升序降 序之分

2. 定距和定比数据的排序


递增排序:设一组数据为 X1 , X2 , … , XN ,递 增排序后可表示为:X(1)<X(2)<…<X(N) 递减排序可表示为:X(1)>X(2)>…>X(N)
2. 准确性审核
数据的审核
(原始数据)
审核数据准确性的方法
1. 逻辑检查
– – – – 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核 检查调查表中的各项数据在计算结果和计算方法 上有无错误 主要用于对定距和定比数据的审核
相关主题