当前位置:文档之家› 数据的描述性分析

数据的描述性分析


(1).各变量值与均值的离差之和等于零.
x
n i =1
n i
i
x =0

(2).各变量值与均值的离差平方和最小.
x
i =1
x = min

2
②.调和平均数(倒数平均数, Harmonic Mean)
调和平均数分为简单调和平均数和加权调和平均数. (1)简单调和平均数 标志值的倒数的算术平均数的倒数.
未分组数据计算平均差的公式为:
MD
x
i :
MD
x
i 1 i
n
i
x fi
i

f
i 1
平均差虽然能较好地区别出不同组数据的分散情况或程度, 但它的缺点是绝对值不适合作进一步的数学分析.
⑤标准差和方差(Standard deviation and Variance) 方差是一组数据中各数值与其算术平均数离差平方的平 均数.标准差是方差中的平方根.
为中位数组的组距。
组距式变量数列计算众数的公式:
1 M0 L i 1 2 M 0 :众数,L:众数组的下限值; 1:众数组次数与下一组次数之差; 2:众数组次数与上一组次数之差; i:众数组的组距。
离散程度的描述
反映各变量值远离其中心值的程度(离散程度),从另一 个侧面说明了集中趋势测度值的代表程度.
分位数可以反映数据分布的相对位置(而不单单是中心 位置). 常用的有四分位数、十分位数、百分位数. 四分位数(Quartile): Q1 ,Q2 ,Q3; 十分位数(Decile): D1 , D2 ,..., D9; 百分位数(Percentile): P1, P2 ,...,P99 ;
把所有数据由小到大排列并分成四等份,处于三个分割点 位置的数值就是四分位数.
4
99% 95% 92% 90%=93.94%.
练习:某管理局所属的15个企业,2000年按其生产某产品 平均单位成本的高低分组资料如下,试计算平均单位成 本.
中国工商银行的某笔投资的年利率是按照复利计算的 ,25 年利率分配(按时间数列):有一年是3%,有4年是4%,有8年 是8%,有10年为10%,有2年为15%.求平均年利率.

3.2.1 离散程度的常用指标
①异众比率
Vr
f = f
i i i
fm
i
fm =1 fi
i
式中, f i 为变量值的总频数;
i
fm
为众数组的频数.
异众比率越大,说明非众数组的频数占总频数的比重越大, 众数的代表性越差.
②全距(极差)
极差(Range)也叫全距,是一组数据的最大值与最小值之 差,即:
250 19 350 30 450 42 550 18 650 11 426.67 万元 120
i
s
x x
5 i 1 5 i 1 i
2
fi
f 1

250 426.67
2
19 350 426.67 30 650 426.67 11 119
总体均值常用X 或 表示,样本均值常用 x 表示,样本均值 的计算公式: 简单算术平均数:
x1 x2 xn x n n
x
x
i 1
n
i
加权算术平均数:
x
i 1 n
n
i
fi
i
f
权数的意义和作用
• 权数:各组次数(频数)的大小所对应的标志值对平均数 的影响具有权衡轻重的作用. • 当各组的次数都相同时,即当 f1 =f 2 =f3 = =f n 时: 加权算术平均数就等于简单算术平均数.
G x1 x2
n
xn xi
1 n
式中G表示几何平均数, xi表示各项标志值.
1 可以看作均值的一种变形lg G (lg x1 lg x2 lg xn ) n
lg x
i 1
n
i
n
(2)加权几何平均数
G
fi
i 1
n
x x
f1 1 f2 2
H
1 1 1 x1 x2 n 1 xn

n 1 1 x1 x2 1 xn

n 1 i 1 xi
n
(2) 加权调和平均数
m1 m2 m3 mn H mn m1 m2 m3 x1 x2 x3 xn
m
i 1 n
1.数值平均数:是以统计数列的所有数据来计算的平 均数.其特点是统计数列中任何一项数据的变动,都会 在一定程度上影响数值平均数的计算结果. 2.位置平均数:它不是对统计数列中所有数据进行计 算所得的结果,而是根据数列中处于特殊位置上的个 别单位或部分单位的标志值来确定的.
3.1.1 数值平均数
数值平均数包括算术平均数、调和平均数和几何平均数. ①.算术平均数(均值, Arithmetic Mean)
x
x f
i 1 i
n
i
f
i 1
n

f xi
i 1
n
nf

x
i 1
n
i
n
i
例:计算某车间工人加工零件平均数(组距式数列)
解:
x f X f
i i i
i i
2640 66 个 40
关于计算结果的说明 根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果. ●只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.
四分位数的计算 首先确定四分位数的位置,再找出对应位置的标志值即为 四分位数.设样本容量为n,则
2 n 1 3 n 1 n 1 Q1的位置 , Q2的位置 , Q3的位置 . 4 4 4
如果各位置计算出来的结果恰好是整数,这时各位置上的 标志值即为相应的四分位数;如果四分位数的位置不是整 数,则四分位数为前后两个数的加权算术平均数.权数的大 小取决于两个整数位置与四分位数位置距离的远近,距离 越近,权数越大.
在实际应用中,计算四分位数的方法并不统一(数据量大时 这些方法差别不大),对于一组排序后的数据:
n 1 2 n 1 3 n 1 , , . ● SPSS中四分位数的位置分别为 4 4 4
n 3 2 n 1 3n 1 , , . ● Excel中四分位数的位置分别为 4 4 4
数据的描述性分析
本章内容
第一节 集中趋势的描述
第二节 离散程度的描述 第三节 分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心值 靠拢的倾向,在中心附近的数据数目较多, 而远离中心的较少。对集中趋势进行描述就 是寻找数据一般水平的中心值或代表值。
众数 位置平均数 中位数 平均数 算术平均数 数值平均数 调和平均数 几何平均数
由组距数列确定中位数
f 先计算各组的累计次数,再按公式
i 1 n i
确定
2
中位数的位置,并对照累计次数确定中位数。 下限公式:
f
i 1
n
i
Me L
2
s m 1 fm
i
f 为总次数;
Sm 1 为中位数组前一组的向上累计次数;
L
为中位数组的下限;
i
f m 为中位数组的次数;
练习: 已知9个家庭的人均月收入数据
1500
750
780
1080
850
960
2000
1250
1630
试求这组数据的第一和第三四分位数.
四分位差反映了中间50%数据的离散程度,数值越小说明 中间数据越集中.
④平均差(Mean deviation) 平均差也称平均绝对偏差,总体所有单位的标志值与其平 均数的离差绝对值的算术平均数.通常用 M D表示.
R max(xi ) min(xi )
组距分组数据可用最高组上限-最低组下限计算.
③四分位差 四分位差(quartile deviation)也称内距或四分间距(interquartile range),是指第三四分位数和第一四分位数之差.
四分位差的计算公式为:
Qr =Q3 Q1
把所有数据由小到大排列并分成若干等份,处于分割点位 置的数值就是分位数.
3. 平均数
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
数值平均数与位置平均数的适用场合?
案例1:甲班《统计学》考试情况如下表: 60分以下
60-70 70-80
2
8 22
80-90
90分以上
10
4
案例2:乙班《统计学》考试情况如下表: 60分以下 2
60-70
70-80 80-90 90分以上
正偏
(2) 皮尔逊经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均 数数量关系的经验公式为:
x M o 3( x M e )
众数、中位数、平均数的特点和应用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大且有明显峰值时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
x
fn n
fi
i 1
n
xi
fi
例3.1.1 一位投资者持有一种股票,1997,1998,1999,2000年 收益率分别为4.5%,2.0%,3.5%,5.4%. 计算该投资者在这四 年内的平均收益率.
例3.1.2 某企业四个车间流水作业生产某产品, 一车间产 品合格率99%,二车间为95%,三车间为92%,四车间为90%, 计算该企业的平均产品合格率.
相关主题