第二章 数据的整理
一、数据分布集中趋势的描述
统计量主要有均值、众数和中位数
(一)均值
均 值 (mean) 也 称 为 均 数 或 算 术 平 均 值 ( arithmetric mean) ,是全部数据的算术平均,记为 x 。 均值是数据分布集中趋势的最主要统计量,适用于数值 数据,不能用于定类和定序数据。 均值具有良好的数学性质: (1)各数据与均值的离差之和为零,即
5.182 41.71
1.866 15.02
0.686 5.52
0.456 3.67
0.0413 0.33
12.424 100.00
*数据来源:国务院人口普查办公室、国家统计局编《中国 2010 年人口普查资料》2012
利用上表的数据,就可作出 2010 年人口普查中我国各 种受教育程度人口数的(垂直)条形图:
– 2.定性数据的数量化转换
二、数据资料的统计整理
数据资料整理和图示的步骤
(1)对数据资料进行审核和订正;
(2)对数据资料进行统计分组(分类);
(3)统计汇总,计算各组频数,编制频数分布表 (4)给出统计图表或报告。
(一)定性数据的整理和图示
对于定性数据(品质数据)主要作分类整理
– 按不同数据(类别)进行分组 – 算出各组的频数或频率、百分比等
– (2)定序数据(ordinal data或有序数据、等级数据
rank data):是对事物之间等级或顺序差别的计量结果
2.定量数据
定量数据(quantitative data),也称数值数据 (numerical data)或计量数据(measurement data), 是观察或实验结果可以用数值大小表示的数据资料, 一般带有度量衡单位。
数值变量可分为
– 离散变量(discrete variable) – 连续变量(continuous variable)
一般将数值变量简称为变量
数据的分类简表
定性数据(品质数据) 数据类型 定类数据 定序数据 定量数据 数值数据 (计量数据) 数值 (+-×÷) 数值变量 (离散变量、连续变量) (计数数据) (等级数据) 表现形式 类别 (无序) 定类变量 类别 (有序) 定序变量
主要用于描述定性数据集中趋势,对于定量数据,
有时可能有多个众数或没有众数,意义不大 对于分组且等距的频数分布,一般只求众数所在组, 即频数最大的组。 众数的特点是易理解,不受数据极端值的影响。但
其灵敏度、计算功能和稳定性差。
二、数据分布离散程度的描述
常用统计量有极差、方差、标准差、变异系数等
4.整理结果的统计图示
根据频数分布表2-2用Excel制作的直方图
频数
20 15 10 5
1 3 4 13 14
18 15 10 6 4 2
0
-62 -63 -64 -65 -66 -67 -68 -69 -70 -71 -72 坐高(cm)
图2-2 男童坐高数据的频数分布直方图
第二节 数据分布的统计特征描述
对应变量 主要 统计方法 常用 统计图形
计算各组频数, 进行列联表分 计算各种统计量, 进行参数估计和检 析、2 检验等非参数方法 条形图,圆形图(饼图) 验、回归分析等参数方法 直方图,频数折线图,线图
(三)两类数据的转换
根据统计分析的需要,定量数据与定性数
据之间经常要做数据类型的转换。
– 1.定量数据的定性化转换
对于已分组的频数分布数据,有
k 1 S2 ( mi 2 fi nx 2 ) ; n 1 i 1
实际计算时,通常可用计算器上的统计功能来帮 助计算。对于较大数据集,往往利用电子计算机由统 计软件(如 SPSS、Excel 软件等)来进行处理。
(三)标准误
标准误 (standard error) 也是描述离散程度的统计量, 其计算公式为:
n n
(x x ) 0 ;
i 1 i
n
(2)各数据与其均值离差的平方和为最小值。 即对任意实数 a,有
2 2 ( x x ) ( x a ) i i i 1 i 1
对原始数据 x1, x2, …, xn,均值的计算公式:
x1 x2 xn 1 n x xi n n i 1
S Sx n
其中 S 是数据的标准差。 当我们用均值来推断估计总体均值时,标准误反映了 均值偏离总体均值的平均程度,故又称为均值的标准差 (standard deviation for mean) 。
(四)变异系数
变异系数(coefficient of variation)是描述数据离散程 度的相对指标,是标准差与均值之比,常用百分比表示,其 计算公式为:
S CV = 100% |x|
变异系数是无量纲的相对变异性的统计量, 其大小反映 了数据偏离其均值的相对偏差。 在比较不同总体, 特别是不同量纲的两组数据的离散程 度时应用。
方差、标准差都反映了每个数据偏离其均值的平均程 度,其中标准差具有与实际观察值相同的量纲,比方差更 常用。
对于已分组的频数分布表数据,设组数为 k,而 m1, m2, …, mk 为各组的组中值, f1 , f2 , … , fk 为各组频数,则 其方差 S2 和标准差 S 的计算公式分别为
S
1.定性数据(qualitative data)也称品质数据 定性数据是观察或实验结果不可以用数值大小表示只能用文字 描述的数据资料,一般不带有度量衡单位。 – (1)定类数据(categorical data或名义数据nominal data、计数数据count data):是对事物按照其属性进行 分类或分组的计量结果,
数分布表与直方图生成、统计量的计算。
案例2-1(受教育程度资料)
根据《中国2010年人口普查资料》(国务院人口普查办公
室、国家统计局编)提供的第六次全国人口普查数
据资料,人口的受教育程度分为未上过学、小学、初中、 高中、大学专科、大学本科和研究生共7类
在我国6岁及以上共计12.4254亿人口中, 0.6213亿人的受 教育程度是未上过学;3.5721亿人是小学;5.1817亿人是初
2 2 ( m x ) fi i i 1 k
f
i 1
k
i
1
1 k 2 ( m x ) fi i n 1 i 1
和
k 1 2 S S2 ( m x ) fi i n 1 i 1
方差的简化公式
n 1 2 2 2 S ( xi nx ) ; n 1 i 1
当n为奇数 x n 1 , ( ) 2 Me 1 ( x n x n ), 当n为偶数 2 ( 2 ) ( 2 1)
即中位数的位置=(n+1)/2。 中位数是典型的位置平均数,不受极端值的影响
(三)众数
众数(mode)是数据中出现次数最多的观察值,
用Mo表示。
6
5.182
人数(亿)
4
3.572
2
0.621
1.866 0.686 0.456 大学本科
0.0413 研究生
0
未上过学 小学 初中 高中 大学专科
受教育程度
图 2-1
2010 年我国 6 岁及以上人口受教育程度的垂直条形图
(二)定量数据的整理和图示
定量数据(数值数据)主要作分组整理。
– 按数量标志进行分组,
……
65.3 64.2 68.0 66.7 65.6 66.8 67.9 67.6
试编制频数分布表并制作直方图等来进行数据的
统计整理和图示。
解:1.确定组数
ln N k 1 可参考 Sturges 经验公式 则 ln 2 来定组数 k,
ln 90 k 1 ln 2 =7.49≈8,即大致可分为 8 组。
第二章 数据的整理与统计描述
【学习目标】
1.理解数据的类型和特点。
2.了解统计图形和统计表的表示及意义。
3. 掌握定性数据和定量数据的整理步骤和图表显示
方法,描述数据分布集中趋势、离散程度的常用统
计量,样本均值、样本方差、样本标准差的计算。
4.(技能培养)学会用Excel软件进行统计作图、频
对分组整理的数据, 设各组的组中值和频数分别为 m1, m2, …, mk , 和 f1 , f2 , … , fk ,均值的计算公式
m1 f1 m2 f 2 mk f k 1 k x mi fi f1 f 2 f k n i 1
例 2-1(续) 解:
根据前面表 2-2 中男童坐高的频数
中;1.8664亿人是高中;0.6861亿人是大学专科,0.4562亿
人是大学本科,0.0413亿人是研究生。
问题:如何对上述受教育程度资料进行统计整理,并用统 计图表显示?
第一节 数据的分类和整理
一、数据的分类
数据(data)也称资料,是对客观现象 计量的结果。
(一)数据的类型
两大类:定量数据和定性数据。
的统计量
方差的平方根就是标准差(standard deviation)。
样本数据的方差和标准差公式。
设样本数据为 x1, x2, …, xn, 则其样本方差计算公式为
n 1 2 S2 ( x x ) i n 1 i 1
样本标准差是相应方差的平方根,其计算公式为
n 1 2 S S2 ( x x ) i n 1 i 1
(二)变量及其类型
说明现象的某种属性或标志称为变量(variable) 对变量进行测量或观察的值称为观察值(observation)或