当前位置:文档之家› 统计学之统计数据的描述

统计学之统计数据的描述

(要点)
1. 将一个变量值作为一组
2.适合于变量值较少的

离散变量



组距分组
(要点)
• 将变量值的一个区间作为一组 • 适合于连续变量和变量值较多
的离散变量。 • 需要遵循“不重不漏”的原则 • 有等距分组和不等距分组
☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺
组距分组
(几个概念)

分组标志是划分数据的标准或依据
分组的性质来:兼有分和合双重含义。
2、统计分组的原则 穷尽原则 互斥原则
3、统计分组方法
品质标志分组 数量标志分组
品质分组
➢ 品质标志:性别、职业、所有制等。
分组标志一经确定,组名和组数也随之 确定 品质分组所形成的数列称为品质数列
饮料品 牌
2,而不能取其他
离散系数
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影
响 4. 用于对不同组别数据离散程度的比较
【 例 】某管理局抽查了所属的8家企业 ,其产品销售数据如表。试比较产品销售 额与销售利润的离散程度
结论: 计算结果表明,v1<v2,说明产品销
售额的离散程度小于销售利润的离散程度
2.5 统计表与统计图
2.5.1 统计表
•把统计数据按一定的顺序排列在表格上 ,就形成了统计表。
统计表的结构
1999~2000年城镇居民家庭抽样调查资料
表头
项目
单位 1999年 2000年

调查户数 平均每户家庭人口
分组数据的图示
(折线图的绘制)
频 30 数 25 (天) 20
15
10
5
折线图与直方图 下的面积相等!
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的折线图
曲线图:用平滑曲线连接各组次数坐标点 即得分布曲线。
频数分布的类型
对称分布
2. 确定组距: (Class Width) 组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表
2.1.2 次数分配 P17
在分组的基础上,将所有单位归类并列出每 一组的次数,称为次数分布或频数分布。
次数分布数列的两个要素 1)按某标志所分的组。 2)各组所出现的单位数,即频数,亦称 次数。
不受极端值影响 数据分布偏斜程度较大时应用
• 平均数
易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
2.3 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差
(range)
• 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布
2.2.3
四分位数
(quartile)
1.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
四分位数
未分组数据:
2.2.4 均值
(mean)
1. 集中趋势的最常用的测度值
简单算术平均数(simple mean)
加权算术平均数
(weighted mean)
设一组数据为: 相应的频数为:
2. 各变量值与均值的离差平方和最小
几何平均数
(geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均 3. 主要用于计算平均增长率
【例】一位投资者持有一种股票,1996年、 1997年、1998年和1999年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者 在这四年内的平均收益率。
频 30 数 25
(天 20
)
15
10
5
直方图下的面 积之和等于1
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
折线图:折线图可以在直方图的基础 上,用折线将各组次数高度的坐标连 接而成,也可以用组中值与次数求坐 标点连接而成

40044 4222.0


3.14
3.13


平均每户就业人口

平均每户就业面

平均一就业者负担人数 平均每人全部年收入
#可支配收入

1.77
1.68

% 元 元 元
56.43 1.77 5888.77 5854.02
53.67

1.86 6316.81 6279.98
资 料
平均每人消费性支出


一般用x表示变量;用f表示频数
(次数)。
2.1.3 次数分配图 分组数据—直方图和折线图
Excel
用直方形的宽度和高度来表示次数分 布的图形。
绘制直方图时,横轴表示各组组限, 纵轴表示次数(一般标在左方)和比 率(或频率,一般标在右方)。
分组数据的图示
我一眼就看 出来了,销 售量在170~ 180之间的天 数最多!
某管理局所属8家企业的产品销售数据
企业编号 1
产品销售额(万元)
x1 170
销售利润(万元)
x2 8.1
2
220
12.5
3
390
18.0
4
430
22.0
5
480
26.5
6
650
40.0
7
950
64.0
8
1000
69.0
v1=
309.19 536.25
=0.577
v2=
23.09 32.5215
=0.710
设有六个工人的日产量(件)依次排列为10、11、 12,13、14、15、则:
中位数位次=(n+1)/2
=6+1/2=3.5
2、由分组资料计算中位数: (1)由单项数列求中位数
例10:某生产车间120名工人生产某种零件的日 产
量如下表所示,计算该车间工人日产量的中位数 。
按日产量分组(件 ) 20 22 24 26 30 32 33
2.2 集中趋势的测度
一. 众数
二. 中位数和分位数 三. 均值
四.众数、中位数和均值的比较
集中趋势
(central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表
值或中心值 3. 不同类型的数据用不同的集中趋势测度

2.2.1 众数
(mode)
• 如果B=0,则基尼系数=1,表示收入绝对不 平均
• 基尼系数在0 和1之间取值
• 一般认为,基尼系数若小于0.2,表明分配 平均;基尼系数在0.2至0.4之间是比较适当 的,即一个社会既有效率又没有造成极大的 分配不公;基尼系数在0.4被认为是收入分 配不公平的警戒线,超过了0.4应该采取措 施缩小这一差距。
方差和标准差
(Variance and Standard deviation)
离散程度最常用的测度值
• 反映了各变量值与均值的平均差 异
总体方差和标准差
(Population variance and Standard deviation) 未分组数据:
组距分组数据:
样本方差和标准差
(simple variance and standard deviation)
平均收益率=103.84%-1=3.84%
众数、中位数和均值的比较
众数、中位数和均值的 关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数和均值的特点和 应用
• 众数
不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用
• 中位数
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
2.1.4 洛伦茨曲线与基尼 系数
洛伦茨曲线
• 20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
• 描述收入和财富分配性质的曲线
• 分析该国家或地区分配的平均程度
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
(例题分析)

(权数对均值的影响)P34
甲组: 考试成绩(x ): 0

人数分布(f ):1
乙组: 考试成绩(x): 0

人数分布(f ):8
20 100
1
8
20 100
1
1
算术平均数
(数学性质) 1.各变量值与均值的离差之和等于零
可口 可乐
旭日 升冰 茶
百事 可乐
汇源 果汁
露露
合计
人如数不同百品分(牌%比)饮料市场占有率
15
30
11
22
9
18
6
12
9
18
50
100
数量标志分组
➢ 数量标志:年龄、产量、利润等。
首先,各组数量界限的确定必须能反映事物质的 差别。
其次,应根据总体的数量特征,采用适当的分组 形式。
单变量值分组
未分组数据:
组距分组数据:
样本方差P34
自由度(degree of freedom)
相关主题