当前位置:文档之家› 离散趋势测量法

离散趋势测量法

第五章 离散趋势测量法 第二节、全距与四分位差• 一、全距• 1、未分组资料计算公式• 全距又称极差,是一组数据的最大值与最小值之差,用表示。

计算公式为:••式中, 、 分别表示为一组数据的最大值与最小值。

由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。

越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。

2、分组资料计算公式R=最高组上限 - 最低组下限• R=最高组组中组-最低组组中值 • R=最高组组中组-最低组下限 • R=最高组上限-最低组组中值• 如果资料经过整理,并形成组距分配数列,全距可近似表示为: • R ≈最高组上限值-最低组下限值 3、优缺点:优点:计算简单,易于理解。

缺点:(1)受极端值影响大,遇含开口组的资料时无法计算; (2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。

二、四分位差(inter-quartile range )上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。

四分位差的计算方法: Q·D=(Q3-Q1) /2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。

此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。

四分位差主要用于测度顺序数据的离散程度。

当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。

优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。

max()min()i i R X X =-m ax()i X min()i X第三节、平均差•平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。

根据掌握资料的不同,平均差有以下两种计算方法:• 1. 简单平均法•对于未分组资料,采用简单平均法。

其计算公式为:2. 加权平均法在资料分组的情况下,应采用加权平均式第四节、方差和标准差•一、概念要点•方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。

但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。

因此,方差、标准差是实际中应用最广泛的离中程度度量值。

由于总体的方差、标准差与样本的方差、标准差在计算上有所区别•1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。

• 2、离散程度的测度值之一。

• 3、最常用的测度值。

• 4、反映了数据的分布。

•5、反映了各变量值与均值的平均差异。

•6、根据总体数据计算的,称为总体方差或标准差。

根据样本数据计算的,称为样本方差或标准差二、总体的方差和标准差设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。

总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。

4. 方差的数学性质第五节、标准分相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。

1、定义。

变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值标准分数也给出了一组数据中各数值的相对位置。

比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。

(4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。

实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1•经验法则表明:当一组数据对称分布时•——约有68.27%的数据在平均数加减1个标准差的范围内•——约有95.45%的数据在平均数加减2个标准差的范围内•——约有99.73%的数据在平均数加减3个标准差的范围内。

•由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。

因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值•2、标准分的特性•(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z是和X一一对应的变量。

•(2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。

•(3)均值和方差不同的正态分布经Z分数标准化后,可以转化为标准正态分布,所以Z又称标准正态变量。

•(4)Z分数的数学特性:•Z分数之和等于0;•Z分数的算术平均数等于0;•Z分数的标准差和方差均为1。

3、标准分的主要作用:标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。

第六节离散系数相对离散程度:离散系数用离差的绝对指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较。

这种由绝对离差与其算术平均数的比值,叫变异系数。

•1、全距系数:全距与算术平均数之比。

•2、平均差系数:平均差与算术平均数之比。

•3、标准差系数(最重要和最常用的变异系数)•(1)标准差与其相应的均值之比•(2)消除了数据水平高低和计量单位的影响•(3)测度了数据的相对离散程度•(4)用于对不同组别数据离散程度的比较离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。

离散系数是一个无名数,可以用于比较不同数列的变异程度。

离散系数通常用表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。

两组工人工资水平离散系数计算如下:【例】某管理局抽查了所属的8家企业,其产品销售数据如表,试比较产品销售额与销售利润的离散程度X 1=536.25(万元) X2=32.5215(万元) S 1=309.19(万元) S 2=23.09(万元 ) V 1=S1/X1=0.577 V2=S2/X2=0.710结论: 计算结果表明,V 1<V 2,说明产品销售额的离散程度小于销售利润的离散程度第七节、异众比率• 非众数组的频数占总频数的比率(variation ratio),称为异众比率,用表示。

• 异众比率的计算公式为:•式中:为变量值的总频数;为众数组的频数•异众比率的作用是衡量众数对一组数据的代表性程度的指标。

•异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。

•异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率[例3.10]一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。

调查员在某天对50名顾客购买饮料的品牌进行了纪录。

整理得不同品牌饮料的频数分布资料如表4.4.1所示,要求根据资料计算异众比率数据类型和所适用的离散程度测度值第八节偏度和峰度数据分布偏态与峰度的测度指标•偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。

•对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。

•集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。

偏态和峰度就是对这些分布特征的描述。

一、偏态的度量•(一)由算术平均数与众数之间的关系求偏态系数•任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。

若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。

用其二者的差量除以标准差,即可求得偏态系数,•(二)动差法•动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。

•二、峰度的度量•峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。

•当峰度β>0时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图3.4(a);•β=0时,分布为正态分布;•β<0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分布称为平峰分布如图3.4(b)。

[例3.20] 根据例4.5.1中的数据,计算农民家庭人均收入分布的峰度系数结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大【例】根据表中的计算结果,计算农村居民家庭纯收入分布的峰度系数。

结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重。

相关主题