第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:A组:60,60,60,60,60 B组:58,59,60,61,62C组:40,50,60,70,80 D组:80,80,80,80,80A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。
就平均数而言,A、B、C三组相同,D组的平均数高于前三组。
就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。
所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。
可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。
全距是测定离中趋势最简单的一种指标。
它和四分位差一样,是以两数之差来表达的。
1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
R=X N—X1 (5.1)其中:X N是全部数据中最大的标志值,X1是最小的标志值。
[例5.1.1] 求74,84,69,91,87,74,69这些数字的全距。
[解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有R =X N —X 1=91—69=22对于分组资料,在第三章我们已经知道,由于不能确知变量实际的最大值和最小值,因而求全距有以下三种方法:(1)用组值最大组的组中值减去组值最小组的组中值,此法求出的全距一般比实际上的全距要小些。
(2)用组值最大组的上限减去组值最小组的下限,此法求出的全距一般比实际上的全距要大些。
(3)用组值最大组的组中值减去组值最小组下限;或用组值最大组上限减去组值最小组的组中值。
此法求出的全距多接近于实际上的全距。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差在第四章,我们已经了解了四分位数的计算。
它的一个用途就是,用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,以避免全距测量离中趋势受极端值影响大这个缺点。
四分位差就是第三四分位数和第一四分位数的半距,用Q ·D 表示Q ·D =213Q Q - (5.2) 四分位差优点是避免了极端值变动的影响,但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节 平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差,用A ·D 表示。
1.对于未分组资料平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。
对于未分组资料,求平均差用原始式,即A ·D =NX X ∑- (5.3)[例5.2.1] 试分别以算术平均数为基准,求85,69,69.74,87,91,74这些数字的平均差。
[解] 先用求平均指标的公式求出这些数字的算术平均数,得X = 78.4再利用表5.1,以算术平均数为基准求出A ·D =NX X ∑- =74.55 = 7.91 表5.12.对于分组资料对于分组资料,计算平均差需用加权式A ·D =∑∑-fXX f (5.4)[例5.2.2] 试以算术平均数为基准,求表3.10所示数据的平均差。
[解] 先算出算术平均数X =∑∑f fX =32119829=3.06(人) = 再利用表5.2算出A ·D =∑∑-fXX f =322738.2418 = 0.75(人)由此可见,2002年天津市家庭以户均人口3.06人为基准,家庭人口的平均差是0.75人。
表5.23.平均差的性质平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
所以平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。
与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述,所以平均差作为变异指标,其运用比下面的标准差要少得多。
另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。
因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。
第三节标准差为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。
1.对于未分组资科标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。
对于末分组资料,求标准差用原始式,即S =()NXX∑-2(5.5)①①计算样本资料的标准差,应以(N―1)作为分母更合适,因为在通常的情况下,分母应为自由度数,在这里取N是近似,在N大的情况下没有多少差别。
这将在“参数估计”一章得到说明。
[例5.3.1] 求72、8l 、86、69、57这些数的标准差。
[解] 先求出算本平均数 X = NX ∑ = 5365 = 73.0再利用表5.3求出标准差S = ()NX X ∑-2=5506= 10.06 表5.3在大多数情况下,由于作为基准的X 不是简单的数值,所以求标难差用原始式(5.5)运算起来数字很繁,容易发生错误。
为此,我们可以利用标准差便于代数运算的特点,把(5.5)式变形为S = 22⎪⎪⎭⎫⎝⎛-∑∑N X N X (5.6)① [例5.3.2] 应用(5.6)式求上例的标准差。
[解]仍利用表5.3,各项数字已列于表中S = 22⎪⎪⎭⎫ ⎝⎛-∑∑N X N X = 25365527151⎪⎭⎫ ⎝⎛-= 10.06①证明:()NX X ∑-2=NXX X X∑∑∑+-222 =2222XX NX+-∑=22⎪⎪⎭⎫ ⎝⎛-∑∑N X NX2. 对于分组资料对分组资料,计算标准差要用加权式,即S =()NX X f ∑-2(5.7)①[例5.3.4] 求表3.12的标准差〔参见表5.4〕 [解] 先求出算术平均数 X =NfX∑=10017028= 170.28(厘米) 再利用(5.7)式求出标准差,各项数字已列于表5.4中S =()NX X f ∑-2=10016.5672= 7.53 (厘米)由此可见,100个男性青年的身高,以平均身高170.28厘米为基准,标准差是7.53厘米。
表5.4对于标准差的加权式,我们也可以通过代数运算,将(5.7)式变形为①(5.7)式可以写成 S =()∑-2XX PS = 22⎪⎪⎭⎫⎝⎛-∑∑N fX N fX (5.8)② [例5.3.5] 利用(5.8)式求上例的标准差〔参见表5.4〕。
[解] S =22⎪⎪⎭⎫⎝⎛-∑∑N fX NfX =2100170281002905200⎪⎭⎫ ⎝⎛-= 7.53 (厘米) 3. 标准差的性质标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标,这是因为它在数学上便于代数运算,并且具有许多特有的性质:(1)以算术平均数为基准计算的标准差,较之以任何其他数值为基准计算的标准差要小。
这是因为算术平均数的“最小平方”性质:各变量值对算术平均数的离差的平方和,必定小于它们对任何其他数(X ’)偏差的平方和,即()NX X ∑-2≤()NX X ∑-2' (未加权式) (5.9a )或()NX X f ∑-2≤()NX X f ∑-2' (加权式) (5.9b )(2) 标准差同平均差一样,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
因为它已将总体中各单位标志值的差异全部包括在内了,所以它受抽样变动的影响小。
但是,标准差在受极端值影响和处理不确定组距这两方面,缺点均与算术平均数相同。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的平方,它直接写成S 2。
从第十章开始,我们将逐渐频繁地使用方差,但目前我们仍然集中讨论标准差。
这两个概念是很容易互换的,可以直接从一个转换到另一个。
4.标准分运用标准差.还可将原来不能直接比较的离差标准化,使之可以相加、相减、平均或者相互比较。
为此我们引入一个新的变量,用符号Z 表示,它被定义为变量X 的标准分Z =SXX - (5.10)②(5.8)式可以写成 S =∑∑-22)(PX PX由公式可以看到,Z分数是以离差与标准差的比值来测定变量X与X的相对位置的,它有三个特性:(1)对于给定资料,由于算术平均数和标准差都是确定值,所以Z是和X一一对应的变量;(2) Z分数没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较;(3) Z分数实际表达了变量值距算术平均数X有几个标准差。
比如Z=2,表示该变量值离X有2个S的距离;Z=1.3,表示变量值离X有1.3个S的距离。
因为Z分数和正态分布有密切关系,所以在第七章求Z分数的过程,也称为变量标准化的过程。
以后我们将看到,均值不同和方差不同的正态分布经Z 分数标准化后,成为标准正态分布,所以Z也有标准正态变量之称。