当前位置:文档之家› 第2章++统计数据的描述

第2章++统计数据的描述


二、直接来源
• 3.重点调查和典型调查 重点调查是从调查对象的全部单位中选择少数 重点单位进行调查,其中重点单位是指在所要调查 的数量特征上占有较大比重的单位。如了解全国钢 铁企业,选择宝钢、鞍钢、首钢、武钢、包钢即可。 典型调查是从调查对象的全部单位中选择一个 或几个少数有代表性的单位进行全面深入的调查。 如研究武汉市跨国公司的运营情况,选取可口可乐 公司作个案分析。 重点调查、典型调查具有主观性,其调查的单位 不是随机抽取的,因此,调查结果不能推论总体。
2.1数据的计量尺度
一般情况,数据的计量尺度按由低到高、 由粗略到精确可以分为四种: 列名尺度 顺序尺度 间隔尺度 比例尺度
• • • •
一、列名尺度nominal scale
• 其特点是只能对事物进行平行的分类或分组,例 如:人口按性别分为男、女,按教育程度分为高 中及以下、大学、研究生,按户口分城市、农村 等等。企业按经济性质分:国有、集体、私营、 外企。 • 为了便于统计处理,特别是为了便于计算机识别, 可以对不同类别用数字或编码表示,如:“1”表 示男性,“2”表示女性(但注意:这只是代码, 不能区分大小或进行任何数学运算。)
57.14
42.86 100.00 频率
(二)数量标志分组
• 单变量值分组:把每一变量值作为一组, 这种分组方式通常只适用于离散变量而且 变量值较少的情况。例如:22页表2.6 • 组距分组:将全部变量值依次划分为若干 个区间,并将这一区间的变量作为一组。
1.组距分组的步骤
• (1)确定组距class width:一般以5或10 的整数倍为组距 • (2)确定组数:组数=全距range/组距= (最大值-最小值)/组距 • (3)根据分组整理成频数分布表
2.组距分组应注意的问题
• (1)每组的两个端点数值叫组限,其中每组的小 值称为下限(low limit),较大值称为上限 (upper limit);连续型变量在分组时相邻组的上 下限应该重合,“上限不在组内”的原则,如: 115——120,包括115,但是不包括120; • (2)在组距分组时,如果总体中有特小的变量值, 就采用下开口组“某某以下” 在组距分组时,如果总体中有特大的变量值, 就采用上开口组“某某以上” • (3)组距分组:等距分组、不等距分组(如年龄 0~6岁幼儿,7~17少儿,18~35青年,36~64中年, 65以上老年)
二、次数分布的图示与类型
• 直方图与折线图 • 几种常见的次数曲线 • 洛伦茨曲线与基尼系数
1.直方图histogram和折线图(频数多 边形)frequency polygon(多边形)
• 直方图是用矩形的宽度和高度来表示频数 分布的图形,横轴表示数据分组,纵轴表 示频数或者频率。折线图则是在直方图基 础上,把直方图顶部的中点(即组中值) 用直线连接起来。如图:25页图2.1、2.2
儿 年 人 年 中 老 幼 少 婴 青 年 人
3、J型分布(1)
120 100 80
需求量
60 40 20 0
价格
J型分布(2)
100 80 60
供应量
40 20 0
价格
3.洛伦茨曲线与基尼系数
• 洛伦茨曲线是20世纪初美国经济学家、统 计学家洛伦茨根据意大利经济学家帕累托 (福利经济学的代表人,提出了帕累托最 优)提出收入分配公式绘制成的描述收入 和财富分配性质的曲线。 • 横轴是累积的人口百分比,纵轴是累积的 收入或财富百分比。
1.根据未分组数据或者单变量值分组 数据计算众数
• 只需找出出现次数最多的变量值即为众数。 • 例如:有一组数据如下:2,3,3,5,5, 5,6,7,8 ,10,这其众数为5。
2.对于组距分组求众数
1 M0 L i 1 2
• 其中,L表示众数所在组的下限 • 1 表示众数组次数与下一组(前一组)次 数之差 • 2 表示众数组次数与上一组(后一组)次 数之差 • i表示众数组的组距三、来自隔尺度interval scale
• 不仅可以比较各事物的大小,而且可以计 算差异的大小,即计算数量的间隔。例如: 考试分数(百分制)、温度的计量。
四、比例尺度ratio scale
• 比例尺度与间隔尺度的差别很小,区别主 要在于,在间隔尺度中,“0”表示某一个 数值,或者叫做0水平。而在比例尺度中, “0”表示“没有”或者“无”。例如:温 度0表示0摄氏度,而长度0米则表示没有或 不存在。大多数情况我们使用的是比例尺 度。 • 另外,间隔尺度只做加减运算,做乘除运 算没有多大意义。而比例尺度可以做加减 乘除运算且都有意义。
2.3 统计数据的整理
• 统计分组 • 次数分配的图示与类型
一、统计分组
• 统计分组是统计整理的第一步,是根据统 计研究的目的,将数据按照某种特征或标 准分成不同的组别。 • 分组时所依据的特征或标准成为统计分组 标志: 品质标志分组:按事物的性质和属性划分 (列名尺度和顺序尺度的数据) 数量标志分组:按事物的数量标准划分 (间隔尺度和比例尺度的数据)
举例:某车间50名职工日产量分组 资料如下:
产量
50以下 50-60
职工人数
5 8
向上累积
5 13
60-70
70-80 80以上
21
9 7
34
43 50
合计
50
-
举例
众数组为60-70,L=60,i=10, △1=21-8=13,△2=21-9=12, 则
13 M 0 60 10 65.2 13 12
用于显示连续型变量的 直方图( Histogram ) 次数分布
40
30
20
10 Std . De v = 4. 86 Mea n = 1 63. 3 0 15 4. 0 15 8. 0 16 2. 0 16 6. 0 17 0. 0 17 4. 0 N = 83 . 00
VAR00001
2.几种常见的次数曲线
举例
年产值 (百万元) 50~60 60~70 70~80 80~90 90~100 合计 企业数 (个) 5 11 17 11 6 50 比重 (%) 10 22 34 22 12 100 5 16 33 44 50 —— 向上累积 企业数 比重 10 32 66 88 100 —— 50 45 34 17 6 —— 向下累积 企业数 比重 100 90 68 34 12 ——
2.4分布集中趋势的测度
• • • • • 众数 中位数 均值 几何平均数 众数、中位数、均值的比较
一、众数mode
• 众数是一组数据中出现次数最多的变量值。 从分布看,众数是具有明显集中趋势点的 数值。一组数据分布的最高峰点所对应的 数值即是众数。 • 例如:鞋的码号(女士37,男士41号)当 然会后极大值如姚明50号的鞋子。再比如 衣服的尺寸等等。 • 计算方法:1.根据未分组数据或者单变量值 分组数据计算众数 2.对于组距分组求众数
日产 量(件)
(2)左偏分布
100 80 60 人数(人) 40 20 0 4 9 10 11 12 13 14
日 产 量 (件)
(3)右偏分布
100 80
人数(人)
60 40 20 0 10 11 12 13 14 15 19
日 产 量 (件)
2、U型分布
50 40 30 死亡率(%) 20 10 0
第二章 统计数据的描述
王新华
第二章 主要内容
2.1数据的计量尺度 2.2统计数据的来源 2.3统计数据的整理 2.4分布集中趋势的测度 2.5分布离散程度的测度 2.6分布偏态与峰度的测度 2.7统计表与统计图
第二章 重难点
• 重点:统计数据的整理、分布集中趋势的 测度、分布离散程度的测度 • 难点:分布离散程度的测度、统计图与统 计表
2.组距分组应注意的问题
(4)组中值:class midpoint可以反映各组 数据的一般水平,作为该组数据的一个代 表值。 组中值:(下限+上限)/2 对于上开口组:本组下限+邻组组距/2 对于下开口组:本组上限-邻组组距/2
2.组距分组应注意的问题
(5)向上累积:将各组次数和频数由变量值 小的组向变量值大的组逐组累积,它表明 该组上限以下的单位数是多少,占总体比 重是多少 向下累积:将各组次数和频数由变量值 大的组向变量值小的组逐组累积,它表明 该组下限以上的单位数是多少,占总体比 重是多少
二、顺序尺度ordinal scale
• 顺序尺度是对事物之间等级差或顺序差别的一种测 度,可以比较大小。不仅可以将事物分成不同的类 别,而且还可以确定这些类别的优劣或顺序。 • 例如:产品分为一等品、二等品、三等品,考试成 绩分为优、良、中、及格、不及格,客户对某产品 的满意程度分别很满意、比较满意、不太满意、很 不满意等。 • 顺序尺度比列名尺度精确,但它只是测度了类别之 间的顺序,而未测量出类别之间的准确差值,顺序 尺度的计量结果只能比较大小,不能进行加减乘除 运算。
二、直接来源
• 1.普查census:普查是为某一特定目的,专门组 织的一次性全面调查。这是一种摸清国情、国力 的重要调查方法。我国的人口普查、工业普查、 经济普查(第二、三产业) • 2.抽样调查:抽样调查是通过随机样本对总体数 量规律性进行推断的调查研究方法。虽然准确性 没有普查高,但是节省人力、物力、财力。大多 数调查公司都采取这种调查方式,如收视率调查、 家庭收支情况调查、客户需求调查等等。
(一)品质标志分组
• 比较简单,如对某学校学生的性别进行调 查,可将学生分为男生、女生两个组。再 如对武汉市的学校进行分类,可以分为小 学、中学、中专、大学四个组。见课本21 页。
注意分组的完备性
某高校学生性别分布表(品质数列)


人 数 (人)
频率 (%)
相关主题