当前位置：文档之家› 第二章数据的整理

第二章数据的整理

一、数据分布集中趋势的描述
统计量主要有均值、众数和中位数
（一）均值
均值 (mean) 也称为均数或算术平均值（ arithmetric mean），是全部数据的算术平均，记为 x 。均值是数据分布集中趋势的最主要统计量，适用于数值数据，不能用于定类和定序数据。均值具有良好的数学性质：（1）各数据与均值的离差之和为零，即
5.182 41.71
1.866 15.02
0.686 5.52
0.456 3.67
0.0413 0.33
12.424 100.00
*数据来源：国务院人口普查办公室、国家统计局编《中国 2010 年人口普查资料》2012
利用上表的数据，就可作出 2010 年人口普查中我国各种受教育程度人口数的（垂直）条形图：
– 2．定性数据的数量化转换
二、数据资料的统计整理
数据资料整理和图示的步骤

（1）对数据资料进行审核和订正；

（2）对数据资料进行统计分组（分类）；
（3）统计汇总，计算各组频数，编制频数分布表（4）给出统计图表或报告。

（一）定性数据的整理和图示

对于定性数据（品质数据）主要作分类整理
– 按不同数据（类别）进行分组 – 算出各组的频数或频率、百分比等
– （2）定序数据（ordinal data或有序数据、等级数据
rank data）：是对事物之间等级或顺序差别的计量结果

2.定量数据
定量数据（quantitative data），也称数值数据（numerical data）或计量数据（measurement data），是观察或实验结果可以用数值大小表示的数据资料，一般带有度量衡单位。

数值变量可分为
– 离散变量（discrete variable） – 连续变量(continuous variable)

一般将数值变量简称为变量
数据的分类简表
定性数据（品质数据）数据类型定类数据定序数据定量数据数值数据（计量数据）数值 (＋－×÷) 数值变量（离散变量、连续变量）（计数数据）（等级数据）表现形式类别（无序）定类变量类别（有序）定序变量

主要用于描述定性数据集中趋势，对于定量数据，
有时可能有多个众数或没有众数，意义不大对于分组且等距的频数分布，一般只求众数所在组，即频数最大的组。众数的特点是易理解，不受数据极端值的影响。但

其灵敏度、计算功能和稳定性差。
二、数据分布离散程度的描述
常用统计量有极差、方差、标准差、变异系数等

4．整理结果的统计图示
根据频数分布表2-2用Excel制作的直方图
频数
20 15 10 5
1 3 4 13 14
18 15 10 6 4 2
0
-62 -63 -64 -65 -66 -67 -68 -69 -70 -71 -72 坐高（cm）
图2-2 男童坐高数据的频数分布直方图
第二节数据分布的统计特征描述
对应变量主要统计方法常用统计图形
计算各组频数，进行列联表分计算各种统计量，进行参数估计和检析、2 检验等非参数方法条形图，圆形图（饼图）验、回归分析等参数方法直方图，频数折线图，线图
（三）两类数据的转换

根据统计分析的需要，定量数据与定性数
据之间经常要做数据类型的转换。
– 1．定量数据的定性化转换
对于已分组的频数分布数据，有
k 1 S2 ( mi 2 fi nx 2 ) ； n 1 i 1
实际计算时，通常可用计算器上的统计功能来帮助计算。对于较大数据集，往往利用电子计算机由统计软件（如 SPSS、Excel 软件等）来进行处理。
（三）标准误
标准误（standard error）也是描述离散程度的统计量，其计算公式为：
n n
(x x ) 0 ；
i 1 i
n
（2）各数据与其均值离差的平方和为最小值。即对任意实数 a，有
2 2 ( x x ) ( x a ) i i i 1 i 1
对原始数据 x1, x2, …, xn，均值的计算公式：
x1 x2 xn 1 n x xi n n i 1
S Sx n
其中 S 是数据的标准差。当我们用均值来推断估计总体均值时，标准误反映了均值偏离总体均值的平均程度，故又称为均值的标准差（standard deviation for mean）。
（四）变异系数
变异系数（coefficient of variation）是描述数据离散程度的相对指标，是标准差与均值之比，常用百分比表示，其计算公式为：
S CV = 100% |x|
变异系数是无量纲的相对变异性的统计量，其大小反映了数据偏离其均值的相对偏差。在比较不同总体，特别是不同量纲的两组数据的离散程度时应用。
方差、标准差都反映了每个数据偏离其均值的平均程度，其中标准差具有与实际观察值相同的量纲，比方差更常用。
对于已分组的频数分布表数据，设组数为 k，而 m1, m2, …, mk 为各组的组中值， f1 , f2 , … , fk 为各组频数，则其方差 S2 和标准差 S 的计算公式分别为
S
1.定性数据（qualitative data）也称品质数据定性数据是观察或实验结果不可以用数值大小表示只能用文字描述的数据资料，一般不带有度量衡单位。 – （1）定类数据（categorical data或名义数据nominal data、计数数据count data）：是对事物按照其属性进行分类或分组的计量结果，
数分布表与直方图生成、统计量的计算。
案例2-1（受教育程度资料）

根据《中国2010年人口普查资料》（国务院人口普查办公
室、国家统计局编）提供的第六次全国人口普查数
据资料，人口的受教育程度分为未上过学、小学、初中、高中、大学专科、大学本科和研究生共7类

在我国6岁及以上共计12.4254亿人口中， 0.6213亿人的受教育程度是未上过学；3.5721亿人是小学；5.1817亿人是初
2 2 ( m x ) fi i i 1 k
f
i 1
k
i
1
1 k 2 ( m x ) fi i n 1 i 1
和
k 1 2 S S2 ( m x ) fi i n 1 i 1
方差的简化公式
n 1 2 2 2 S ( xi nx ) ； n 1 i 1
当n为奇数 x n 1 ， ( ) 2 Me 1 ( x n x n ), 当n为偶数 2 ( 2 ) ( 2 1)
即中位数的位置=(n+1)/2。中位数是典型的位置平均数，不受极端值的影响
（三）众数

众数（mode）是数据中出现次数最多的观察值，
用Mo表示。
6
5.182
人数（亿）
4
3.572
2
0.621
1.866 0.686 0.456 大学本科
0.0413 研究生
0
未上过学小学初中高中大学专科
受教育程度
图 2-1
2010 年我国 6 岁及以上人口受教育程度的垂直条形图
（二）定量数据的整理和图示

定量数据（数值数据）主要作分组整理。
– 按数量标志进行分组，
……
65.3 64.2 68.0 66.7 65.6 66.8 67.9 67.6

试编制频数分布表并制作直方图等来进行数据的
统计整理和图示。
解：1．确定组数
ln N k 1 可参考 Sturges 经验公式则 ln 2 来定组数 k，
ln 90 k 1 ln 2 =7.49≈8，即大致可分为 8 组。
第二章数据的整理与统计描述
【学习目标】

1.理解数据的类型和特点。
2.了解统计图形和统计表的表示及意义。

3. 掌握定性数据和定量数据的整理步骤和图表显示
方法，描述数据分布集中趋势、离散程度的常用统
计量，样本均值、样本方差、样本标准差的计算。

4.（技能培养）学会用Excel软件进行统计作图、频
对分组整理的数据，设各组的组中值和频数分别为 m1, m2, …, mk , 和 f1 , f2 , … , fk ，均值的计算公式
m1 f1 m2 f 2 mk f k 1 k x mi fi f1 f 2 f k n i 1
例 2-1（续）解：
根据前面表 2-2 中男童坐高的频数
中；1.8664亿人是高中；0.6861亿人是大学专科，0.4562亿
人是大学本科，0.0413亿人是研究生。

问题：如何对上述受教育程度资料进行统计整理，并用统计图表显示？
第一节数据的分类和整理
一、数据的分类
数据（data）也称资料，是对客观现象计量的结果。
（一）数据的类型

两大类：定量数据和定性数据。
的统计量

方差的平方根就是标准差（standard deviation）。
样本数据的方差和标准差公式。
设样本数据为 x1, x2, …, xn，则其样本方差计算公式为
n 1 2 S2 ( x x ) i n 1 i 1
样本标准差是相应方差的平方根，其计算公式为
n 1 2 S S2 ( x x ) i n 1 i 1
（二）变量及其类型

说明现象的某种属性或标志称为变量（variable）对变量进行测量或观察的值称为观察值（observation）或

e商务文档

第二章数据的整理

相关文档推荐：

e商务文档

第二章 数据的整理

相关文档推荐：

第二章数据的整理