当前位置：文档之家› 统计学之统计数据的描述

统计学之统计数据的描述

(要点)
1. 将一个变量值作为一组
2.适合于变量值较少的
☺
离散变量
☺
☺
☺
组距分组
(要点)
• 将变量值的一个区间作为一组 • 适合于连续变量和变量值较多
的离散变量。 • 需要遵循“不重不漏”的原则 • 有等距分组和不等距分组
☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺
组距分组
(几个概念)
▪
分组标志是划分数据的标准或依据
分组的性质来：兼有分和合双重含义。
2、统计分组的原则穷尽原则互斥原则
3、统计分组方法
品质标志分组数量标志分组
品质分组
➢ 品质标志：性别、职业、所有制等。
分组标志一经确定，组名和组数也随之确定品质分组所形成的数列称为品质数列
饮料品牌
2，而不能取其他
离散系数
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影
响 4. 用于对不同组别数据离散程度的比较
【例】某管理局抽查了所属的8家企业，其产品销售数据如表。试比较产品销售额与销售利润的离散程度
结论：计算结果表明，v1<v2，说明产品销
售额的离散程度小于销售利润的离散程度
2.5 统计表与统计图
2.5.1 统计表
•把统计数据按一定的顺序排列在表格上，就形成了统计表。
统计表的结构
1999～2000年城镇居民家庭抽样调查资料
表头
项目
单位 1999年 2000年
列
调查户数平均每户家庭人口
分组数据的图示
(折线图的绘制)
频 30 数 25 (天) 20
15
10
5
折线图与直方图下的面积相等！
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的折线图
曲线图：用平滑曲线连接各组次数坐标点即得分布曲线。
频数分布的类型
对称分布
2. 确定组距： (Class Width) 组距＝( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表
2.1.2 次数分配 P17
在分组的基础上，将所有单位归类并列出每一组的次数，称为次数分布或频数分布。
次数分布数列的两个要素 1）按某标志所分的组。 2）各组所出现的单位数，即频数，亦称次数。
不受极端值影响数据分布偏斜程度较大时应用
• 平均数
易受极端值影响数学性质优良数据对称分布或接近对称分布时应用
2.3 分布离散程度的测度
一、极差二、内距三、方差和标准差四、离散系数
极差
(range)
• 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布
2.2.3
四分位数
(quartile)
1.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
四分位数
未分组数据：
2.2.4 均值
(mean)
1. 集中趋势的最常用的测度值
简单算术平均数(simple mean)
加权算术平均数
(weighted mean)
设一组数据为：相应的频数为：
2. 各变量值与均值的离差平方和最小
几何平均数
(geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均 3. 主要用于计算平均增长率
【例】一位投资者持有一种股票，1996年、 1997年、1998年和1999年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。
频 30 数 25
(天 20
)
15
10
5
直方图下的面积之和等于1
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
折线图：折线图可以在直方图的基础上，用折线将各组次数高度的坐标连接而成，也可以用组中值与次数求坐标点连接而成
户
40044 4222.0
标
人
3.14
3.13
题
行
平均每户就业人口
标
平均每户就业面
题
平均一就业者负担人数平均每人全部年收入
＃可支配收入
人
1.77
1.68
数
% 元元元
56.43 1.77 5888.77 5854.02
53.67
字
1.86 6316.81 6279.98
资料
平均每人消费性支出
元

一般用x表示变量；用f表示频数
（次数）。
2.1.3 次数分配图分组数据—直方图和折线图
Excel
用直方形的宽度和高度来表示次数分布的图形。
绘制直方图时，横轴表示各组组限，纵轴表示次数（一般标在左方）和比率（或频率，一般标在右方）。
分组数据的图示
我一眼就看出来了，销售量在170～ 180之间的天数最多!
某管理局所属8家企业的产品销售数据
企业编号 1
产品销售额（万元）
x1 170
销售利润（万元）
x2 8.1
2
220
12.5
3
390
18.0
4
430
22.0
5
480
26.5
6
650
40.0
7
950
64.0
8
1000
69.0
v1=
309.19 536.25
=0.577
v2=
23.09 32.5215
=0.710
设有六个工人的日产量(件)依次排列为10、11、 12，13、14、15、则：
中位数位次＝（n+1）／2
＝6+1／2＝3.5
2、由分组资料计算中位数: （1）由单项数列求中位数
例10：某生产车间120名工人生产某种零件的日产
量如下表所示，计算该车间工人日产量的中位数。
按日产量分组（件） 20 22 24 26 30 32 33
2.2 集中趋势的测度
一. 众数
二. 中位数和分位数三. 均值
四.众数、中位数和均值的比较
集中趋势
(central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表
值或中心值 3. 不同类型的数据用不同的集中趋势测度
值
2.2.1 众数
(mode)
• 如果B=0，则基尼系数=1，表示收入绝对不平均
• 基尼系数在0 和1之间取值
• 一般认为，基尼系数若小于0.2，表明分配平均；基尼系数在0.2至0.4之间是比较适当的，即一个社会既有效率又没有造成极大的分配不公；基尼系数在0.4被认为是收入分配不公平的警戒线，超过了0.4应该采取措施缩小这一差距。
方差和标准差
(Variance and Standard deviation)
离散程度最常用的测度值
• 反映了各变量值与均值的平均差异
总体方差和标准差
(Population variance and Standard deviation) 未分组数据：
组距分组数据：
样本方差和标准差
(simple variance and standard deviation)
平均收益率＝103.84%-1=3.84%
众数、中位数和均值的比较
众数、中位数和均值的关系
均值中位数众数均值 = 中位数 = 众数众数中位数均值
左偏分布
对称分布
右偏分布
众数、中位数和均值的特点和应用
• 众数
不受极端值影响具有不唯一性数据分布偏斜程度较大时应用
• 中位数
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
2.1.4 洛伦茨曲线与基尼系数
洛伦茨曲线
• 20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
• 描述收入和财富分配性质的曲线
• 分析该国家或地区分配的平均程度
x1 ，x2 ，… ，xn f1 ， f2 ，… ，fk
(例题分析)

(权数对均值的影响)P34
甲组：考试成绩（x ）: 0

人数分布（f ）：1
乙组：考试成绩（x）: 0

人数分布（f ）：8
20 100
1
8
20 100
1
1
算术平均数
(数学性质) 1.各变量值与均值的离差之和等于零
可口可乐
旭日升冰茶
百事可乐
汇源果汁
露露
合计
人如数不同百品分(牌%比)饮料市场占有率
15
30
11
22
9
18
6
12
9
18
50
100
数量标志分组
➢ 数量标志：年龄、产量、利润等。
首先，各组数量界限的确定必须能反映事物质的差别。
其次，应根据总体的数量特征，采用适当的分组形式。
单变量值分组
未分组数据：
组距分组数据：
样本方差P34
自由度(degree of freedom)

e商务文档

统计学之统计数据的描述

相关文档推荐：