当前位置:文档之家› 统计学第三章单变量描述统计

统计学第三章单变量描述统计


107.5 112.5 117.5 122.5 127.5 132.5 137.5

3
246.49
739.47
5
114.49
572.45
8
32.49
259.92
14
0.49
6.86
10
18.49
184.90
6
86.49
51850

3100.5
16
8.0
”来反映城市居民对广告
10
5.0
关注的一般趋势,其代表
2
1.0
性不是很好
合计
200
100
四分位差(定序数据)
离散程度的测度值之一 也称为内距或四分间距 上四分位数与下四分位数之差

QD = QU - QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
对称分布
右偏分布
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
※众数
※中位数
※均值
※均值
适 用

四分位数
众数
调和平均数


众数
中位数 几何平均数






四分位数
中位数


四分位数



众数
离散趋势及其测度
数据的特征和测度(本节位置)
定类数据 定序数据 定距数据 定比数据
累计次数分布
累计频数
向上累计 将各组次数和比率,由变量值低的组向变量
值高的组逐组累计。 向下累计 将各组次数和比率,由变量值高的组向变量
值低的组逐组累计。 参照P62表3-3
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰度 (形状)
单变量 描述统计
学习提纲
频数与累计频数 集中趋势的度量 离散程度的度量 相对位置与异常值的检验 偏态与峰度的测度
频数与累计频数
频数——次数
对总体经过分组后形成各组单位数在各组间的分布。 也就是各类别中的数据个数。
频数分布——次数分布,分布数列
总体中的各个类别及其相应的频数全部展示出来的 数据集汇总表
方差和标准差
离散程度的测度值之一 最常用的测度值
X = 8.3
反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
各变量值对均值的方差小于对任意值的 方差
根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
方差的计算公式
组距分组数据: 中位数位置 f 1
2
未分组数据的中位数(计算公式)
Me


X

N 1 2


1 2

X
N 2


X
N 2
1

当N为奇数时 当N为偶数时
定序数据中位数
【例2】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的中位数
表2 甲城市家庭对住房状况评价的频数分布
4. 主要用于定序数据,也可用于数值型数据 ,但不能用于定类数据
四分位数(位置的确定)
未分组数据:
下四分位数(QL)位置 =
N+ 14
3(N+1) 上四分位数(QU)位置 = 4
组距分组数据:
下四分位数(QL)位置 =
N 4
上四分位数(QL)位置 =
3N 4
百分位数
P百分位数
p%的数据项的值小于等于P百分位数 (100-p)%的数据项的值大于等于P百分位
平均差(计算过程及结果)
【例6】根据第三章表3-5中的数据,计算工人日加工零件数 的平均差
表 某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
组中值(Xi) 107.5
频数(Fi) 3
四分位差(定序数据的算例)
【例5】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:设非常不满意为1,不 满意为2, 一般为3, 满意 为 4, 非常满意为5 已知 QL = 不满意 = 2,
n
( X i X )2 min
i 1
调和平均数
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 用于定比数据 不能用于定类数据和定序数据 计算公式为
HM
X i Fi X i Fi Xi
X i Fi Fi
几何平均数
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为
股票名称 价格 数量
购买总金额
某高速 3.5
16
某电子 4.1
12
某科技 5.6
18
某药业 9.8
3
某环保 15.6 2
合计
51
56 49.2 100.8 29.4 31.2 266.6
均值
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
集中趋势的测度
定类数据:众数
定序数据:中位数和分位数
定距和定比数据:均值
众数
集中趋势测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数
值型数据
数值型分组数据的众数
出现次数最多的组作为众数所在组 众数的区间范围:众数所在组的区间

均值
集中趋势的测度值之一 最常用的测度值 一组数据的均衡点所在 易受极端值的影响 用于数值型数据,不能用于定类数据
和定序数据
均值
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X

X1 X2 XN

Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
离中趋势
数据分布的另一个重要特征
离中趋势的各测度值是对数据离散程度所作的描 述
反映各变量值远离其中心值的程度,因此也称为 离中趋势
从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
作为中心的变量值就是平均指标
同质总体中各单位某一数据所达到的一般水平
集中趋势(Central tendency)
集中趋势
不同类型的数据用不同的集中趋势测度值
一组数据向其中心值靠拢的 倾向和程度
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
【例4】根据下表数据,计算异众比率
表3 某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
112
56.0
在 所 调 查 的 200 人 当 中 ,
51
25.5
关注非商品广告的人数占
9
4.5
44%,异众比率还是比较
大。因此,用“商品广告
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50

四分位数
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
| Xi- X | 15.7
112.5
5
10.7
117.5
8
5.7
122.5
14
0.7
127.5
10
4.3
132.5
6
9.3
137.5
4
14.3

50

K
M D

i 1
Xi
K
X Fi
Fi
312 6.2( 4 个) 50
i 1
|Xi-X |Fi 47.1 53.5 45.6 9.8 43.0 55.8 57.2 312
乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1
X甲
i=1 Xi n
X乙
i=1 Xi n
0×1+20×1+100×8
相关主题