当前位置：文档之家› 第2章++统计数据的描述

第2章++统计数据的描述

二、直接来源
• 3.重点调查和典型调查重点调查是从调查对象的全部单位中选择少数重点单位进行调查，其中重点单位是指在所要调查的数量特征上占有较大比重的单位。如了解全国钢铁企业，选择宝钢、鞍钢、首钢、武钢、包钢即可。典型调查是从调查对象的全部单位中选择一个或几个少数有代表性的单位进行全面深入的调查。如研究武汉市跨国公司的运营情况，选取可口可乐公司作个案分析。重点调查、典型调查具有主观性，其调查的单位不是随机抽取的，因此，调查结果不能推论总体。
2.1数据的计量尺度
一般情况，数据的计量尺度按由低到高、由粗略到精确可以分为四种：列名尺度顺序尺度间隔尺度比例尺度
• • • •
一、列名尺度nominal scale
• 其特点是只能对事物进行平行的分类或分组，例如：人口按性别分为男、女，按教育程度分为高中及以下、大学、研究生，按户口分城市、农村等等。企业按经济性质分：国有、集体、私营、外企。 • 为了便于统计处理，特别是为了便于计算机识别，可以对不同类别用数字或编码表示，如：“1”表示男性，“2”表示女性（但注意：这只是代码，不能区分大小或进行任何数学运算。）
57.14
42.86 100.00 频率
（二）数量标志分组
• 单变量值分组：把每一变量值作为一组，这种分组方式通常只适用于离散变量而且变量值较少的情况。例如：22页表2.6 • 组距分组：将全部变量值依次划分为若干个区间，并将这一区间的变量作为一组。
1.组距分组的步骤
• （1）确定组距class width：一般以5或10 的整数倍为组距 • （2）确定组数：组数=全距range/组距= （最大值-最小值）/组距 • （3）根据分组整理成频数分布表
2.组距分组应注意的问题
• （1）每组的两个端点数值叫组限，其中每组的小值称为下限（low limit），较大值称为上限（upper limit）；连续型变量在分组时相邻组的上下限应该重合，“上限不在组内”的原则，如： 115——120，包括115，但是不包括120； • （2）在组距分组时，如果总体中有特小的变量值，就采用下开口组“某某以下” 在组距分组时，如果总体中有特大的变量值，就采用上开口组“某某以上” • （3）组距分组：等距分组、不等距分组（如年龄 0~6岁幼儿，7~17少儿，18~35青年，36~64中年， 65以上老年）
二、次数分布的图示与类型
• 直方图与折线图 • 几种常见的次数曲线 • 洛伦茨曲线与基尼系数
1.直方图histogram和折线图（频数多边形）frequency polygon（多边形）
• 直方图是用矩形的宽度和高度来表示频数分布的图形，横轴表示数据分组，纵轴表示频数或者频率。折线图则是在直方图基础上，把直方图顶部的中点（即组中值）用直线连接起来。如图：25页图2.1、2.2
儿年人年中老幼少婴青年人
3、J型分布(1)
120 100 80
需求量
60 40 20 0
价格
Ｊ型分布（２）
100 80 60
供应量
40 20 0
价格
3.洛伦茨曲线与基尼系数
• 洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦茨根据意大利经济学家帕累托（福利经济学的代表人，提出了帕累托最优）提出收入分配公式绘制成的描述收入和财富分配性质的曲线。 • 横轴是累积的人口百分比，纵轴是累积的收入或财富百分比。
1.根据未分组数据或者单变量值分组数据计算众数
• 只需找出出现次数最多的变量值即为众数。 • 例如：有一组数据如下：2，3，3，5，5， 5，6，7，8 ，10，这其众数为5。
2.对于组距分组求众数
1 M0 L i 1 2
• 其中，L表示众数所在组的下限 • 1 表示众数组次数与下一组（前一组）次数之差 • 2 表示众数组次数与上一组（后一组）次数之差 • i表示众数组的组距三、来自隔尺度interval scale
• 不仅可以比较各事物的大小，而且可以计算差异的大小，即计算数量的间隔。例如：考试分数（百分制）、温度的计量。
四、比例尺度ratio scale
• 比例尺度与间隔尺度的差别很小，区别主要在于，在间隔尺度中，“0”表示某一个数值，或者叫做0水平。而在比例尺度中， “0”表示“没有”或者“无”。例如：温度0表示0摄氏度，而长度0米则表示没有或不存在。大多数情况我们使用的是比例尺度。 • 另外，间隔尺度只做加减运算，做乘除运算没有多大意义。而比例尺度可以做加减乘除运算且都有意义。
2.3 统计数据的整理
• 统计分组 • 次数分配的图示与类型
一、统计分组
• 统计分组是统计整理的第一步，是根据统计研究的目的，将数据按照某种特征或标准分成不同的组别。 • 分组时所依据的特征或标准成为统计分组标志：品质标志分组：按事物的性质和属性划分（列名尺度和顺序尺度的数据）数量标志分组：按事物的数量标准划分（间隔尺度和比例尺度的数据）
举例：某车间50名职工日产量分组资料如下：
产量
50以下 50-60
职工人数
5 8
向上累积
5 13
60-70
70-80 80以上
21
9 7
34
43 50
合计
50
-
举例
众数组为60-70，L=60，i=10， △1=21-8=13，△2=21-9=12，则
13 M 0 60 10 65.2 13 12
用于显示连续型变量的直方图（ Histogram ）次数分布
40
30
20
10 Std . De v = 4. 86 Mea n = 1 63. 3 0 15 4. 0 15 8. 0 16 2. 0 16 6. 0 17 0. 0 17 4. 0 N = 83 . 00
VAR00001
2.几种常见的次数曲线
举例
年产值（百万元） 50~60 60~70 70~80 80~90 90~100 合计企业数（个） 5 11 17 11 6 50 比重（%） 10 22 34 22 12 100 5 16 33 44 50 —— 向上累积企业数比重 10 32 66 88 100 —— 50 45 34 17 6 —— 向下累积企业数比重 100 90 68 34 12 ——
2.4分布集中趋势的测度
• • • • • 众数中位数均值几何平均数众数、中位数、均值的比较
一、众数mode
• 众数是一组数据中出现次数最多的变量值。从分布看，众数是具有明显集中趋势点的数值。一组数据分布的最高峰点所对应的数值即是众数。 • 例如：鞋的码号（女士37，男士41号）当然会后极大值如姚明50号的鞋子。再比如衣服的尺寸等等。 • 计算方法：1.根据未分组数据或者单变量值分组数据计算众数 2.对于组距分组求众数
日产量(件)
(2)左偏分布
100 80 60 人数(人) 40 20 0 4 9 10 11 12 13 14
日产量 (件)
(3)右偏分布
100 80
人数(人)
60 40 20 0 10 11 12 13 14 15 19
日产量 (件)
2、Ｕ型分布
50 40 30 死亡率(%) 20 10 0
第二章统计数据的描述
王新华
第二章主要内容
2.1数据的计量尺度 2.2统计数据的来源 2.3统计数据的整理 2.4分布集中趋势的测度 2.5分布离散程度的测度 2.6分布偏态与峰度的测度 2.7统计表与统计图
第二章重难点
• 重点：统计数据的整理、分布集中趋势的测度、分布离散程度的测度 • 难点：分布离散程度的测度、统计图与统计表
2.组距分组应注意的问题
（4）组中值：class midpoint可以反映各组数据的一般水平，作为该组数据的一个代表值。组中值：（下限+上限）/2 对于上开口组：本组下限+邻组组距/2 对于下开口组：本组上限-邻组组距/2
2.组距分组应注意的问题
（5）向上累积：将各组次数和频数由变量值小的组向变量值大的组逐组累积，它表明该组上限以下的单位数是多少，占总体比重是多少向下累积：将各组次数和频数由变量值大的组向变量值小的组逐组累积，它表明该组下限以上的单位数是多少，占总体比重是多少
二、顺序尺度ordinal scale
• 顺序尺度是对事物之间等级差或顺序差别的一种测度，可以比较大小。不仅可以将事物分成不同的类别，而且还可以确定这些类别的优劣或顺序。 • 例如：产品分为一等品、二等品、三等品，考试成绩分为优、良、中、及格、不及格，客户对某产品的满意程度分别很满意、比较满意、不太满意、很不满意等。 • 顺序尺度比列名尺度精确，但它只是测度了类别之间的顺序，而未测量出类别之间的准确差值，顺序尺度的计量结果只能比较大小，不能进行加减乘除运算。
二、直接来源
• 1.普查census：普查是为某一特定目的，专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。我国的人口普查、工业普查、经济普查（第二、三产业） • 2.抽样调查：抽样调查是通过随机样本对总体数量规律性进行推断的调查研究方法。虽然准确性没有普查高，但是节省人力、物力、财力。大多数调查公司都采取这种调查方式，如收视率调查、家庭收支情况调查、客户需求调查等等。
（一）品质标志分组
• 比较简单，如对某学校学生的性别进行调查，可将学生分为男生、女生两个组。再如对武汉市的学校进行分类，可以分为小学、中学、中专、大学四个组。见课本21 页。
注意分组的完备性
某高校学生性别分布表（品质数列）
性
别
人数（人）
频率（%）
男

e商务文档

第2章++统计数据的描述

相关文档推荐：