第二章统计数据的描述方案
1998年我国大陆人口按性别分组表
按性别分组 人数(万人) 比重(%)
男
63 629
50.98
女
61 181
49.02
合计
124 810
100
• 按数量标志分组时,可先将数据进行排序, 然后再根据需要进行分组。按数量标志分 组的方法很多,主要有两种:一是单变量 值分组,二是组距分组。
单变量值分组
2
2
中位数 960 1080 1020 2
分组数据中位数的计算
• 单值分组:先根据公式N/2确定中位数的位置,
再根据累计频数确定其所在组,对应的变量值即 为中位数。
就形成了一张频数分布表。我们把全部数据
按其分组标志在各组内的分布状况称为频数
分布或次数分布,分布在各组内的数据个数
称为频数或次数,各组频数与全部频数之和
的比值称为频率或比重。对数据进行分组的 过程也就是频数分布的形成过程。
按品质标志分组的同时计算出各组的频数或频率,就形成我 们所需要的频数分布表。
均;基尼系数在0.2至0.4之间是比较适当的,即 一个社会既有效率又没有造成极大的分配不公; 基尼系数在0.4被认为是收入分配不公平的警戒 线,超过了0.4应该采取措施缩小这一差距。
A B
2.2 分布集中趋势的测度
一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、众数、中位数和均值的比较
(折线图的绘制)
折折线线图图与与直直方方图图
12
下下的的面面积积相相等等!!
8
4
0 80
90
100
110
120
130
某某车车间间工工人人周周加加工工零零件件折折线线图图
次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几几种种常常见见的的频频数数分分布布
U型分布
2.1.5洛伦茨曲线与基尼系数
• 在对统计数据进行整理时,首先需要进行审核,以保证数据 的质量,为进一步整理与分析打下基础。从不同渠道取得的 统计数据,在审核的内容与方法上都有所不同。对于通过直 接调查取得的原始数据应主要从完整性和准确性两个方面去 审核。完整性审核主要是检查应调查的单位或个体是否有遗 漏,所有的调查项目或指标是否填 写齐全等。准确性审核主 要包括两个方面,一是检查数据资料是否真实地反映了客观 实际情况,内容是否符合实际;二是检查数据是否有错误, 计算是否正确等。审核数据准确性的方法主要有逻辑检查 数 据的审核和计算检查 。
合计
人数 3 7 13 5 2 30
2.1.4次数分配直方图
Excel
直方图
(histogram)
1. 用矩形的宽度和高度来表示频数分布的图
形,实际上是用矩形的面积来表示各组的
频数分布 2. 在直角坐标中,用横轴表示数据分组,纵
轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图 3. 直方图下的总面积等于1
按笔画则有笔多少的升序降序之分。交替运用不同 方式排序在汉字型数据的检错纠错过程中十分有用, 应予重视 。
2.1.2统计数据的分组
• 统计分组是数据整理中的一项重要工作,它 是根据统计研究的需要,将数据按照某种特 征或标准分成不同的组别。分组时所依据的 特征或标准称为统计分组标志,它有品质标 志和数量标志两种。
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
4. 各变量值与中位数的离差绝对值之和最小,即 n xi M e min i1
中位数
(位置的确定)
原始数据:
数据个数N为奇数时 中位数位置 N 1 2
数据个数N为偶数时 中位数位置在N 和 N 1之间
洛伦茨曲线
1. 20 世 纪 初 美 国 经 济 学 家 、 统 计 学 家 洛 伦茨 (M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
2. 描述收入和财富分配性质
的曲线,分析该国家或地区累积
分配的平均程度
的 收
入
百
分
比
绝对公平线
A B
累积的人口百分比
22
分组数据:
中位数位置 N 2
数值型数据的中位数
(9个数据的算例)
【例】
原始数据: 排 序:
位 置:
9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
12 3 4 5 6 7 8 9
• (二)数据的排序
• 数据排序是按一定顺序将数据排列,以便于研究者 通过浏览数据发现一些明显的特征趋势或解决问题 的线索,除此之外,排序还有助于对数据检查纠错, 以及为重新归类分组等提供依据。在某些场合,排 序本身就是分析的目的之一。
• 排序可借助于计算机很容易地完成。对于数字型数 据排序只有两种:递增和递减。市场调查中的数据 许多是属于定性的,对于字母型数据排序也有升序 降序之分,但习惯上升序用得多些,因升序与字母 的自然顺序相同。汉字型数据的排序方式 最多, 按拼音方式排列与字母型数据排序完全一样, 而
众数
众数
(mode)
1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于分类数据,也可用于顺序数据和
数值型数据
无众数 原始数据:
众数
(不惟一性)
10 5 9 12 6 8
一个众数 原始数据:
6 59 8 5 5
• 数据筛选
• 对审核过程中发现的错误,应尽可能予以纠 正,在调查结束后,当对数据中发现的错误 不能予以纠正,或者有些数据不符合调查的 要求而又无法弥补时,就需要对数据进行筛 选。数据筛选包括两方面内容:一是将某些 不符合要求的数据或有明显错误的数据予以 剔出;二是将符合特定条件的数据筛选出来, 而不符合特定条件的数据予以剔出。数据的 筛选对通过市场调查取得的数据十分必要。
多于一个众数 原始数据: 25 28 28 36 42 42
根据单变量数列众数的确定
某班学生按年龄分组
按年龄分组(岁) 17 18 19众数 20 21 合计
人数(人) 6 14 18频数最大 9 3 50
根据组距数列确定众数
i
fi
按零件加工数分组
人数
80-90
3
90-100
7
100-110
13
• 单变量值分组是把每一个变量值作为一组, 这种分组方法通常只适合于离散变量,且 变量值较少的情况下使用。在数据较多的 情况下,单变量值分组由于组数较多而不 便于观察数据分布的特征和规律,而且对 于连续变量或变量值较多的情况,可采用 组距分组。
组距分组
(要点)
1. 它是将全部变量值依次划分为
若干个区间,并将这一区间的 ~
位置 n 1 9 1 5 22
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9 10
位置 n 1 10 1 5.5
• 品质标志是说明事物的性质和属性特征的, 它不能用数值来表现。数量标志是说明事物 数量特征的,它可以具体表现为数值。
• 将统计数据按分组标志进行分组的过程,就 是次数分配形成的过程。次数分配就是观测 值按其分组标志分配在各组内的次数。
2.1.3次数分配
• 按某种标志对数据进行分组后,再计算出所 有类别或数据在各组中出现的次数或频数,
变量值作为一组。 2. 适合于连续变量 3. 适合于变量值较多的情况 4. 需要遵循“不重不漏”的原则
~ ~ ~
5. 可采用等距分组,也可采用不 ~
等距分组
组距分组
(步骤)
பைடு நூலகம்
1. 确定组数:组数的确定应以能够显示数据
的分布特征和规律为目的
k
1
log1N0 log120
2. 确定组距:组距 (class width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小
基尼系数
1. 20世纪初意大利经济学家基尼(G. Gini)根据洛伦 茨曲线给出了衡量收入分配平均程度的指标
基尼系数 A
A B
1. A表示实际收入曲线与绝对平均线之间的面积 2. B表示实际收入曲线与绝对不平均线之间的面积 3. 如果A=0,则基尼系数=0,表示收入绝对平均 4. 如果B=0,则基尼系数=1,表示收入绝对不平均 5. 基尼系数在0 和1之间取值 6. 一 般认 为,基尼 系数若小于 0.2,表明 分配平
110-120
5
120-130
2
合计
30
根据组距数列确定众数
• 下限公式:
M0
L
(
f
f f1 f1) ( f
i f 1 )
• 上限公式:
M0
U
f
f f1
f1 f
i
f1
组距分组众数的计算
下限公式:
M0
L
f
f f1
f1 f
值及所分的组数来确定,即
组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表