【课程讲义】第四章差异量数【教学目标】明确差异量数是描述数据离中趋势的一种量数,它与集中量数一起描述数据的全貌;明确标准差是所有差异量数中代表性最好的;掌握各种差异量数的概念、性质、计算方法、适用条件。
【学习方法】了解、理解、计算与应用。
【重点难点】差异量数的概念及适用条件;各种差异量数的计算方法;标准分数及百分等级的概念、适用条件及计算方法。
【讲义内容】前一章讨论的集中量数反映的是一组数据的集中趋势,代表一组数据的一般水平。
但是客观事物总是千差万别的,一组数据中不是所有的数值都与一般水平相等,而是有的高些,有的低些,彼此参差不齐。
描述一组数据波动情况的量数成为差异量数。
差异量数常用来衡量集中量数的代表性程度。
差异量数越大,则集中量数的代表性越小;差异量数越小,则集中量数的代表性越大。
差异量数分为:绝对差异量数和相对差异量数绝对差异量数:标准差,方差,四分差;相对差异量数:差异系数另外,本章还讲到相对地位量数:标准分数,百分等级。
第一节标准差一、标准差的概念及适用条件(一)概念标准差是一组数据中每个数据与其算术平均数之差的平方和,除以总的数据个数,再求算术平方根。
标准差的计算公式为:n XS2)(X-∑=(4.1)X为算术平均数,n为数据的个数。
(二)适用条件1.与算术平均数配合使用,与算术平均数的适用条件相同。
即一组数据的一般水平适合用算术平均数描述时,其离散程度宜用标准差描述;2.计算其他统计量时,如差异系数,标准分数,相关系数等,需要用到标准差;3.在推论统计中,尤其是进行方差分析时,常用方差表示数据的离散程度。
二.标准差的计算方法(一)未分组资料标准差的计算方法1.基本公式法用标准差的定义n XS2)(X-∑=,计算标准差。
例1 某校四年级举行数学竞赛,一班、二班分别派九名选手参加,成绩如下表。
试比较两个班的成绩。
4-1 四年级一班九名学生竞赛成绩统计表4-2 四年级二班九名学生竞赛成绩统计表解:先求年级一班的平均数和标准差。
得X =73,从而∑(X —X )2=1786,又由于N=9,所以算得的标准差为09.1491786)(X 2==-∑=N X S 再求四年级二班的平均数和标准差。
得X =73,从而∑(X —X )2=5948,又由于N=9,所以算得的标准差为71.2595984)(X 2==-∑=N X S 以上可知,两班的平均数都为73分,说明两班的平均水平相同。
但由于一班的标准差为14.09, 一班的标准差为25.71,说明两班的差异水平很不同。
一班的差异程度较小,平均分数73分代表性就大些;二班的差异程度较大,平均分数73分代表性就小些。
2.原始数据法222)()(X NX NX NX S ∑∑-=-∑= (4.2)推导过程为:()()NX X X X NX XS i i i∑∑+-=-=22222=NX X X X i i∑∑∑+-222式中NX X i∑=且为定数=∑=22X N X 上式可继续整理:NX N X X X S i i∑∑+-=2222=NN X N X N X Xi i ii∑∑∑∑⋅+⋅⎪⎪⎭⎫ ⎝⎛-22)(2 =()()NNX NX Xiii2222∑∑∑+-=()N N X X ii∑∑-22=22⎪⎪⎭⎫ ⎝⎛-∑∑N X NXi i或()N X X N i i 22∑∑-例2 用原始计算法计算表4-1资料的标准差。
解:原始数据为:92,90,83,80,75,70,62,55,50。
用计算器可直接计算出∑X=657,∑X 2=49747,N=9代入公式(4.2),得09.14)9657(949747)(222=-=∑-∑=N X N X S(二)分组资料标准差的计算方法对于次数分布表中的数据,以组中值作为各组的代表值,计算公式为:NX X f S C 2)(-∑=(4.3)其中,C X 为各组对应的组中值,f 为每个组对应的次数,N 为总次数。
例3 某年级144名学生的语文成绩如下表,求其标准差。
解:将算得的∑2)(X X f C -=3483.16(其中X =52.8),N=144,代入公式(4.3),得92.414416.3483)(2==-∑=N X X f S C用上面的公式求标准差,需要先求出平均数,计算比较麻烦且影响结果的准确性,因此,在实际应用中,往往可以直接通过组中值,而不必计算平均数,来求标准差,对于分组数据,直接计算标准差的公式为:22)(NfX N fX S C C ∑-∑= (4.4)例4 某校初一随机抽取60名学生测验其心理健康知识,成绩如表4-4,求其标准差。
4-4 60名学生心理健康知识成绩表解:将算得的∑C fX =4185,∑f 2CX =298375及N=60代入公式(4.4),得 39.10)604185(60298375)(222=-=∑-∑=N fX N fX S C C(三)由各部分的标准差合成总标准差的计算方法已知总体中各部分的标准差,可以用下面的公式合成总的标准差:tii i t N d S N S )(22+∑= 其中,t S 为总的标准差,t N 为总体中数据的个数,i S 为各部分数据的标准差,i d 为各部分平均数与总平均数的差,即:t X X d i i -=;kkk t N N N X N X N X N X ++++++=ΛΛ212211,k t N N N N +++=Λ21,i X 为各部分数据的平均数。
例 5 某年级四个班的学生人数分别为50人,52人,48人,51人。
期末数学考试各班的平均成绩为90分,85分,88分,92分,标准差分别为6分,5.5分,7分,8.2分。
求四个班 成绩的标准差。
解:设51,48,52,504321====N N N N92,88,85,904321====X X X X 则 432144332211N N N N X N X N X N X N X t ++++++=514852509251884885529050+++⨯+⨯+⨯+⨯==893899218988489851899044332211=-=-=-=-=-=-=-=-==-=-=t X X d t X X d t X X d t X X d因此24.751485250)32.8(51])1(7[48])4(5.5[52)16(50)()()()()(2222222243212424123231222222121122=+++++-++-+++=++++++++++=+∑=N N N N d S N d S N d S N d S N N d S N S t i i i t即:全年级数学成绩的标准差为7.24分四、方差和标准差的意义方差与标准差是表示一组数据离散程度的最好的指标。
其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。
它基本具备一个良好的差异量数应具备的条件:①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②有一定的计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。
除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。
在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。
标准差比其他各种差异量数具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各两个标准差,或三个标准差之内。
对于任何一个数据集合,至少有211h-的数据落在平均数的h (大于1的实数)个标准之内(切比雪夫定理)。
例如某组数据的平均数为50,标准差是5,则至少有75%(2211-)的数据落在50±2×5=40—60之间,至少有88.9%(2311-)的数据落在50±3×5=35—65之间(h=2,211h -=2211-=43=75%,h=3,211h -=2311-=98=88.9%)。
如果数据是呈正态分布,则数据将以更大的百分数落在平均数上下两个标准差之内(95%)或三个标准差(99.7%)。
小结:标准差是描述一组数据离散趋势大小的统计指标,定义为一组数据中每个数据与其算术平均数之差的平方和,除以总的数据个数,再求算术平方根,即:n X S 2)(X -∑= 。
对于一组原始数据求标准差的方法有两种:(1)用定义计算,nX S 2)(X -∑=;(2)用原始数据直接计算:22)(NX NXS∑∑-=。
对于分组数据,可以用组中值作为每组数据的代表,用公式:NX X f S C 2)(-∑=或22)(N fX N fX S C C∑-∑=计算标准差;如果已知各部分的观测个数,均值和标准差,总的标准差可以通过公式:ti i i t N d S N S )(22+∑=计算得到。
第二节 四分差一、四分差的概念及适用条件(一)概念四分差通常用符号Q 来表示,指在一个次数分配中,中间50%的次数的全距之半,也就是上四分点与下四分点之差的一半。
即:213Q Q Q -=(4.6) 其中,Q 1为四分之一的分位点,即该分数以下的数据个数占总数据个数的四分之一,Q 3为四分之三的分位点,即该分数以下的数据个数占总数据个数的四分之三。
(二)适用条件通常与中位数配合使用。
即一组数据的集中趋势适宜用中位数描述时,差异情况要用四分差描述。
1. 一组数据中有极端数据出现时;2. 一组数据的两端有个别数据模糊不清或分组资料有不确定组限时。
二、四分差的计算不管是为分组的资料还是分组资料,计算四分差的基本公式都是根据定义,即:213Q Q Q -=。
只不过计算Q 1和Q 3的方法对于不同资料稍有不同。
(一)未分组资料Q 1和Q 3的计算方法首先将一组数据从大到小排序,然后用数据个数N 除以4,则第)214(+N 位置对应的数据为第一个四分位点Q 1,第)2143(+N 位置对应的数据为第三个四分位点Q 3。
例6 求下18个数据的四分差:51,60,,58,63,74,88,66,70,71,75,81,86,52,57,61,65,90,77。
解:先将18个数据按从小到大的顺序排列:51,52,57,58,60,61,63,65,66,70,71,74,75,77,81,86,88,90。
然后确定31,Q Q 的值由于N=18,所以,1Q 应为521418=+,即第5个位置所对应的数据60;3Q 为14214318=+⨯,即第14个位置对应的数据为77。