当前位置：文档之家› 数据的描述性分析

数据的描述性分析

●
(1).各变量值与均值的离差之和等于零.
x
n i =1
n i
i
x =0

(2).各变量值与均值的离差平方和最小.
x
i =1
x = min

2
②.调和平均数(倒数平均数, Harmonic Mean)
调和平均数分为简单调和平均数和加权调和平均数. (1)简单调和平均数标志值的倒数的算术平均数的倒数.
未分组数据计算平均差的公式为:
MD
x
i :
MD
x
i 1 i
n
i
x fi
i

f
i 1
平均差虽然能较好地区别出不同组数据的分散情况或程度, 但它的缺点是绝对值不适合作进一步的数学分析.
⑤标准差和方差(Standard deviation and Variance) 方差是一组数据中各数值与其算术平均数离差平方的平均数.标准差是方差中的平方根.
为中位数组的组距。
组距式变量数列计算众数的公式：
1 M0 L i 1 2 M 0 :众数，L：众数组的下限值； 1：众数组次数与下一组次数之差； 2：众数组次数与上一组次数之差； i：众数组的组距。
离散程度的描述
反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.
分位数可以反映数据分布的相对位置(而不单单是中心位置). 常用的有四分位数、十分位数、百分位数. 四分位数(Quartile): Q1 ,Q2 ,Q3; 十分位数(Decile): D1 , D2 ,..., D9; 百分位数(Percentile): P1, P2 ,...,P99 ;
把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.
4
99% 95% 92% 90%=93.94%.
练习:某管理局所属的15个企业,2000年按其生产某产品平均单位成本的高低分组资料如下,试计算平均单位成本.
中国工商银行的某笔投资的年利率是按照复利计算的 ,25 年利率分配(按时间数列):有一年是3%,有4年是4%,有8年是8%,有10年为10%,有2年为15%.求平均年利率.
●
3.2.1 离散程度的常用指标
①异众比率
Vr
f = f
i i i
fm
i
fm =1 fi
i
式中, f i 为变量值的总频数;
i
fm
为众数组的频数.
异众比率越大,说明非众数组的频数占总频数的比重越大, 众数的代表性越差.
②全距(极差)
极差(Range)也叫全距,是一组数据的最大值与最小值之差,即:
250 19 350 30 450 42 550 18 650 11 426.67 万元 120
i
s
x x
5 i 1 5 i 1 i
2
fi
f 1

250 426.67
2
19 350 426.67 30 650 426.67 11 119
总体均值常用X 或表示,样本均值常用 x 表示,样本均值的计算公式: 简单算术平均数:
x1 x2 xn x n n
x
x
i 1
n
i
加权算术平均数:
x
i 1 n
n
i
fi
i
f
权数的意义和作用
• 权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用. • 当各组的次数都相同时,即当 f1 =f 2 =f3 = =f n 时: 加权算术平均数就等于简单算术平均数.
G x1 x2
n
xn xi
1 n
式中G表示几何平均数, xi表示各项标志值.
1 可以看作均值的一种变形lg G (lg x1 lg x2 lg xn ) n
lg x
i 1
n
i
n
(2)加权几何平均数
G
fi
i 1
n
x x
f1 1 f2 2
H
1 1 1 x1 x2 n 1 xn

n 1 1 x1 x2 1 xn

n 1 i 1 xi
n
(2) 加权调和平均数
m1 m2 m3 mn H mn m1 m2 m3 x1 x2 x3 xn
m
i 1 n
1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果. 2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.
3.1.1 数值平均数
数值平均数包括算术平均数、调和平均数和几何平均数. ①.算术平均数(均值, Arithmetic Mean)
x
x f
i 1 i
n
i
f
i 1
n

f xi
i 1
n
nf

x
i 1
n
i
n
i
例:计算某车间工人加工零件平均数(组距式数列)
解:
x f X f
i i i
i i
2640 66 个 40
关于计算结果的说明根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果. ●只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致.
四分位数的计算首先确定四分位数的位置,再找出对应位置的标志值即为四分位数.设样本容量为n,则
2 n 1 3 n 1 n 1 Q1的位置 , Q2的位置 , Q3的位置 . 4 4 4
如果各位置计算出来的结果恰好是整数,这时各位置上的标志值即为相应的四分位数;如果四分位数的位置不是整数,则四分位数为前后两个数的加权算术平均数.权数的大小取决于两个整数位置与四分位数位置距离的远近,距离越近,权数越大.
在实际应用中,计算四分位数的方法并不统一(数据量大时这些方法差别不大),对于一组排序后的数据：
n 1 2 n 1 3 n 1 , , . ● SPSS中四分位数的位置分别为 4 4 4
n 3 2 n 1 3n 1 , , . ● Excel中四分位数的位置分别为 4 4 4
数据的描述性分析
本章内容
第一节集中趋势的描述
第二节离散程度的描述第三节分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心值靠拢的倾向，在中心附近的数据数目较多，而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。
众数位置平均数中位数平均数算术平均数数值平均数调和平均数几何平均数
由组距数列确定中位数
f 先计算各组的累计次数，再按公式
i 1 n i
确定
2
中位数的位置，并对照累计次数确定中位数。下限公式：
f
i 1
n
i
Me L
2
s m 1 fm
i
f 为总次数；
Sm 1 为中位数组前一组的向上累计次数；
L
为中位数组的下限；
i
f m 为中位数组的次数；
练习: 已知9个家庭的人均月收入数据
1500
750
780
1080
850
960
2000
1250
1630
试求这组数据的第一和第三四分位数.
四分位差反映了中间50%数据的离散程度,数值越小说明中间数据越集中.
④平均差(Mean deviation) 平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数.通常用 M D表示.
R max(xi ) min(xi )
组距分组数据可用最高组上限－最低组下限计算.
③四分位差四分位差(quartile deviation)也称内距或四分间距(interquartile range),是指第三四分位数和第一四分位数之差.
四分位差的计算公式为:
Qr =Q3 Q1
把所有数据由小到大排列并分成若干等份,处于分割点位置的数值就是分位数.
3. 平均数
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
数值平均数与位置平均数的适用场合？
案例1：甲班《统计学》考试情况如下表： 60分以下
60-70 70-80
2
8 22
80-90
90分以上
10
4
案例2：乙班《统计学》考试情况如下表： 60分以下 2
60-70
70-80 80-90 90分以上
正偏
(2) 皮尔逊经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:
x M o 3( x M e )
众数、中位数、平均数的特点和应用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大且有明显峰值时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
x
fn n
fi
i 1
n
xi
fi
例3.1.1 一位投资者持有一种股票,1997,1998,1999,2000年收益率分别为4.5%,2.0%,3.5%,5.4%. 计算该投资者在这四年内的平均收益率.
例3.1.2 某企业四个车间流水作业生产某产品, 一车间产品合格率99%,二车间为95%,三车间为92%,四车间为90%, 计算该企业的平均产品合格率.

e商务文档

数据的描述性分析

相关文档推荐：