当前位置：文档之家› 第二章统计数据的描述方案

第二章统计数据的描述方案

1998年我国大陆人口按性别分组表
按性别分组人数（万人）比重（%）
男
63 629
50.98
女
61 181
49.02
合计
124 810
100
• 按数量标志分组时，可先将数据进行排序，然后再根据需要进行分组。按数量标志分组的方法很多，主要有两种：一是单变量值分组，二是组距分组。
单变量值分组
2
2
中位数 960 1080 1020 2
分组数据中位数的计算
• 单值分组：先根据公式N/2确定中位数的位置，
再根据累计频数确定其所在组，对应的变量值即为中位数。
就形成了一张频数分布表。我们把全部数据
按其分组标志在各组内的分布状况称为频数
分布或次数分布，分布在各组内的数据个数
称为频数或次数，各组频数与全部频数之和
的比值称为频率或比重。对数据进行分组的过程也就是频数分布的形成过程。
按品质标志分组的同时计算出各组的频数或频率，就形成我们所需要的频数分布表。
均；基尼系数在0.2至0.4之间是比较适当的，即一个社会既有效率又没有造成极大的分配不公；基尼系数在0.4被认为是收入分配不公平的警戒线，超过了0.4应该采取措施缩小这一差距。
A B
2.2 分布集中趋势的测度
一、众数二、中位数三、四分位数四、均值五、几何均值六、众数、中位数和均值的比较
(折线图的绘制)
折折线线图图与与直直方方图图
12
下下的的面面积积相相等等！！
8
4
0 80
90
100
110
120
130
某某车车间间工工人人周周加加工工零零件件折折线线图图
次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几几种种常常见见的的频频数数分分布布
U型分布
2.1.5洛伦茨曲线与基尼系数
• 在对统计数据进行整理时，首先需要进行审核，以保证数据的质量，为进一步整理与分析打下基础。从不同渠道取得的统计数据，在审核的内容与方法上都有所不同。对于通过直接调查取得的原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏，所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面，一是检查数据资料是否真实地反映了客观实际情况，内容是否符合实际；二是检查数据是否有错误，计算是否正确等。审核数据准确性的方法主要有逻辑检查数据的审核和计算检查。
合计
人数 3 7 13 5 2 30
2.1.4次数分配直方图
Excel
直方图
(histogram)
1. 用矩形的宽度和高度来表示频数分布的图
形，实际上是用矩形的面积来表示各组的
频数分布 2. 在直角坐标中，用横轴表示数据分组，纵
轴表示频数或频率，各组与相应的频数就形成了一个矩形，即直方图 3. 直方图下的总面积等于1
按笔画则有笔多少的升序降序之分。交替运用不同方式排序在汉字型数据的检错纠错过程中十分有用，应予重视。
2.1.2统计数据的分组
• 统计分组是数据整理中的一项重要工作，它是根据统计研究的需要，将数据按照某种特征或标准分成不同的组别。分组时所依据的特征或标准称为统计分组标志，它有品质标志和数量标志两种。
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据
4. 各变量值与中位数的离差绝对值之和最小，即 n xi M e min i1
中位数
(位置的确定)
原始数据：
数据个数N为奇数时中位数位置 N 1 2
数据个数N为偶数时中位数位置在N 和 N 1之间
洛伦茨曲线
1. 20 世纪初美国经济学家、统计学家洛伦茨 (M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
2. 描述收入和财富分配性质
的曲线，分析该国家或地区累积
分配的平均程度
的收
入
百
分
比
绝对公平线
A B
累积的人口百分比
22
分组数据：
中位数位置 N 2
数值型数据的中位数
(9个数据的算例)
【例】
原始数据: 排序:
位置:
9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
12 3 4 5 6 7 8 9
• （二）数据的排序
• 数据排序是按一定顺序将数据排列，以便于研究者通过浏览数据发现一些明显的特征趋势或解决问题的线索，除此之外，排序还有助于对数据检查纠错，以及为重新归类分组等提供依据。在某些场合，排序本身就是分析的目的之一。
• 排序可借助于计算机很容易地完成。对于数字型数据排序只有两种：递增和递减。市场调查中的数据许多是属于定性的，对于字母型数据排序也有升序降序之分，但习惯上升序用得多些，因升序与字母的自然顺序相同。汉字型数据的排序方式最多，按拼音方式排列与字母型数据排序完全一样，而
众数
众数
(mode)
1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于分类数据，也可用于顺序数据和
数值型数据
无众数原始数据:
众数
(不惟一性)
10 5 9 12 6 8
一个众数原始数据:
6 59 8 5 5
• 数据筛选
• 对审核过程中发现的错误，应尽可能予以纠正，在调查结束后，当对数据中发现的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，就需要对数据进行筛选。数据筛选包括两方面内容：一是将某些不符合要求的数据或有明显错误的数据予以剔出；二是将符合特定条件的数据筛选出来，而不符合特定条件的数据予以剔出。数据的筛选对通过市场调查取得的数据十分必要。
多于一个众数原始数据: 25 28 28 36 42 42
根据单变量数列众数的确定
某班学生按年龄分组
按年龄分组（岁） 17 18 19众数 20 21 合计
人数（人） 6 14 18频数最大 9 3 50
根据组距数列确定众数
i
fi
按零件加工数分组
人数
80-90
3
90-100
7
100-110
13
• 单变量值分组是把每一个变量值作为一组，这种分组方法通常只适合于离散变量，且变量值较少的情况下使用。在数据较多的情况下，单变量值分组由于组数较多而不便于观察数据分布的特征和规律，而且对于连续变量或变量值较多的情况，可采用组距分组。
组距分组
(要点)
1. 它是将全部变量值依次划分为
若干个区间，并将这一区间的 ~

位置 n 1 9 1 5 22
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】：10个家庭的人均月收入数据
排序: 660 750 780 850 960 1080 1250 1500 1630 2000
位置: 1 2 3 4 5 6 7 8 9 10

位置 n 1 10 1 5.5
• 品质标志是说明事物的性质和属性特征的，它不能用数值来表现。数量标志是说明事物数量特征的，它可以具体表现为数值。
• 将统计数据按分组标志进行分组的过程，就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。
2.1.3次数分配
• 按某种标志对数据进行分组后，再计算出所有类别或数据在各组中出现的次数或频数，
变量值作为一组。 2. 适合于连续变量 3. 适合于变量值较多的情况 4. 需要遵循“不重不漏”的原则
~ ~ ~
5. 可采用等距分组，也可采用不 ~
等距分组
组距分组
(步骤)
பைடு நூலகம்
1. 确定组数：组数的确定应以能够显示数据
的分布特征和规律为目的
k
1
log1N0 log120
2. 确定组距：组距 (class width)是一个组的上限与下限之差，可根据全部数据的最大值和最小
基尼系数
1. 20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标
基尼系数 A
A B
1. A表示实际收入曲线与绝对平均线之间的面积 2. B表示实际收入曲线与绝对不平均线之间的面积 3. 如果A=0，则基尼系数=0，表示收入绝对平均 4. 如果B=0，则基尼系数=1，表示收入绝对不平均 5. 基尼系数在0 和1之间取值 6. 一般认为，基尼系数若小于 0.2，表明分配平
110-120
5
120-130
2
合计
30
根据组距数列确定众数
• 下限公式：
M0

L
(
f

f f1 f1) ( f

i f 1 )
• 上限公式：
M0
U

f

f f1
f1 f

i
f1
组距分组众数的计算
下限公式：
M0

L
f

f f1
f1 f
值及所分的组数来确定，即
组距＝( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表

e商务文档

第二章统计数据的描述方案

相关文档推荐：