第一章 描述性统计我们把对某一个问题的研究对象的全体称为总体,总体就是一个具有确定分布的随机变量.我们统计分析的目的是通过从总体中抽得的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首先要对样本的分布状况有一个基本的了解,这一章就是介绍用以描述样本分布状况的一些常用统计分析方法,这些方法既直观又简单,而且也很实用.1.1频数分析与图形表示一、总体X 为只取少数个值的离散型随机变量 例1.1.1考察一枚骰子是否均匀,设计实验如下: 独立地掷这枚骰子42次,所得点数纪录如下:3 24 15 1 5 3 4 3 56 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6 X 为掷一枚均匀的骰子一次所得的点数二、当总体X 取较多离散值或X 为连续取值时设x x x n ,,21是总体X 的一组样本观测值,具体做法如下:1求出x )1(和x n )(,取a 略小于x )1(,b 略大于x n )(;2将区间[a ,b]分成m 个小区间(m <n ),小区间长度可以不等,分点分别为a =t t t m <<< 10=b注意:使每个小区间中都要有一定量的观测值,且观测值不在分点上。
划分区间个数的确定:区间过少:分布信息混杂,丢失信息. 区间过多:出现很多空区间.区间划分个数m 依赖于样本总数n ,理论上有如下两个公式可参考: Moore(1986) : m ≈C n 5/2,C = 1~3; Sturges(1928) : m ≈1+3.322(lg n );3用n j 表示落在小区间(t j 1-,t j ]中观测值的个数(频数)并计算频率f j =nn j (j=1,2,…,m );4在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 ,分别以(t j 1-,t j ]为底边,以n j 为高作矩形,即得频数条形图。
例1.1.2下表是某大学总数为从352名学生的“普通统计学”考试的成绩中,随机抽取的60位学生的成绩63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 99 74 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 90 83 88 84 48 72 80 85 80 87 76 62 96 对上述数据作频数分析并画出条形图。
解 分析 区间个数:n =60 ,用Moore 公式计算得C*5.123,这里C=1合适,取区间m = 6 用Sturges 公式计算得区间m = 6.907, 取区间m = 6区间划分 10分一区间重新划分1.2直方图与经验分布函数我们往往希望通过来自总体的一个样本能对总体X 的分布有一个大概的估计,常用的方法是直方图与经验分布函数. 一.直方图直方图是利用样本所构造的函数来估计总体的分布密度函数.设x x x n ,,21是总体X 的一组样本观测值,X 的分布密度为f .具体做法如1.1中的做法,只是:4在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 ,分别以(t j 1-,t j ]为底边,f j /△t j 为高作矩形,△t j =t j -t j 1-(j =1,2,…,m ),即得直方图 用直方图来近似总体的分布密度函数的实质是:用直方图所对应的分段函数)(x n Φ=f j /△t j x ∈(t j 1-,t j ],j=1,2,…,m 来近似总体的分布密度函数f(x).由于当n 充分大时可用X 取(t j 1-,t j ]的频率f j =nn j 来近似x ∈(t j 1-,t j ]的概率即 f j ≈P (X ∈(t j 1-,t j ])(n 充分大) 而P (X ∈(t j 1-,t j ])=⎰-t t dx x f jj 1)(,即f j ≈⎰-t t dx x f jj 1)( 且当m 充分大,△t j 较小时,对x ∈(t j 1-,t j )时⎰-t tdx x f jj 1)(≈ )(x f △t j故有 f j ≈)(x f △t j 即)(x n Φ=f j /△t j ≈)(x f , x ∈(t j 1-,t j ],j =1,2,…,m 例1.2.1做出例1.1.2中考试成绩的直方图二.经验分布函数利用样本所构造的函数来估计总体X 的分布函数)(x F 。
构造的方法如下:从总体X 中抽取容量为n 的样本X 1,X 2,…,X n , x 1,x 2,…,x n 为样本观察值.将样本观察值从小到大排列得到x )1(≤x )2(≤…≤x n )(,对任意实数x ,令)(x F n = ⎪⎩⎪⎨⎧≥<≤<+x x x x x x x n k n k k )()1()()1(,1,,0称)(x F n 为总体的经验分布函数(或样本分布函数).经验分布函数图由)(x F n 的定义可知(1))(x F n 单调、非降、右连续,在x = x k 处有间断点,在每一个间断点上的跳跃量都是n1,显然,0≤)(x F n ≤1且满足)(-∞F n = 0,)(+∞F n = 1 ,所以)(x F n 是一分布函数,其图象如上。
(2)对于x 的每一个值,)(x F n 为样本X 1,X 2,…,X n 的函数,因而是一个随机变量,其可能取的值为0,n1,n 2,…,nn 1-,1.事件“)(x F n =nk ”发生,意味着样本X 1,X 2,…,Xn中有k 个X i s小于等于x ,而其余n-k 个X i s大于x ,即有k 个事件“X i s≤x ”发生,而有n-k 个事件“X i s≤x ”不发生( 1≤i s ≤n ,1≤i s n -≤n ,s =1,2, …,n ).由于X 1,X 2,…,X n 相互独立,具有相同的分布函数F(x)(总体X 的分布函数),于是事件“)(x F n =nk ”发生的概率等价于n 次独立试验中事件“X ≤x ”发生k 次,而其余n-k 次“X≤x ”不发生的概率,即P ⎭⎬⎫⎩⎨⎧=n k x F n )(=C kn )](1[)]([x X P x X P k n k ≤-≤-=C k n )](1[)]([x F x F k n k -- (3)事实上,对于x 的任一个确定的值,)(x F n 是事件“X ≤x ”发生的频率,而F (x)=P(X ≤x)是事件“X ≤x ”发生的概率.于是由贝努里大数定理知,当n 足够大时,)(x F n 依概率收敛到F(x),即对任意给定的ε>0,有 lim ∞→n P {|)(x F n -F(x)|>ε}=0这一事实揭示了经验分布函数)(x F n 与总体分布函数F (x)的内在联系,即当样本容量n 足够大时,由样本得到的经验分布函数)(x F n 与总体分布函数F(x)相差较大的可能性是很小的.进一步的结果由格列汶科于1933年给出.定理1.2.1(格列汶科定理)设总体X 的分布函数为F (x),经验分布函数为)(x F n .对于任意实数x ,记sup+∞<<∞-=x n D |)(x F n -F(x)|则有P {lim ∞→n D n = 0 }= 1格列汶科定理指出:当样本容量n 足够大时,经验分布函数)(x F n 与总体分布函数F(x)相差最大处概率为1地趋于零.这就是我们在数理统计中可以用样本去推断总体的理论依据.1.3 描述样本数据分布特征的统计量一.描述位置的统计量描述样本数据位置的统计量:样本均值、中位数、上下四分位数和众数、 1. 样本均值(Mean) (中心位置)(1)n 个不同的值x x x n ,,,21 样本均值:x =n1∑=ni i x 1(2)k个不同的值x x x k ,,,21 及每个值出现的频数f f f k ,,,21 ,列表如下: 表1.3.1n = ∑=ki i f 1样本均值:x =n1∑=ki i if x1样本均值,即数据的算术平均值,数据组中的所有元素以它为中心而分布在它的周围,是最常用的统计量。
显然有等式0)(1=∑-=ni i x x2.中位数(Median) (中心位置)设n 个数据x x x n ,,21按从小到大的顺序排列为:x x x n )()2()1(≤≤≤ 中位数为M = ⎪⎩⎪⎨⎧+++][21)12()2()21(x x x n n n n 为偶数当为奇数当n顾名思义,中位数即是大小处于中间位置的数,n 个数据x x x n ,,21按从小到大的顺序排好后,我们称x )1(与x n )(为第1层,x )2(与x n )1(-为第2层,从两头一层一层往里剥,则有第3层,第4层,……,最后就达到“中心”,当n 为奇数时,剥到最后一层是一个数x n )21(+,当n 为偶数时,剥到最后一层有两个数x n )2(和x n )12(+,于是取它们的算术平均值][21)12()2(x x n n ++作中位数。
例1.3.1随机抽取某地11人的月收入情况,数据如下(单位:元):790,380,420,770,1000,550,480,640,880,930,4500, 由n=11为奇数,故其中位数为 M=x )2111(+=x )6(=770前面已经引入了样本均值来刻划数据分布的中心,为什麽还要引入中位数来作为数据分布的中心呢?样本均值与中位数表示的含义各有不同,样本均值即算术平均蕴含了“重心”的意思;而中位数则明确地说明有一半及一半以上的数据不大于中位数,一半及一半以上的数据不小于中位数。
中位数用于概括一个样本的位置,是高度耐抗的。
因为,即便是一个“好的”数据也难免有那麽百分之几的大错误,但这个别的极大或极小值,一般不会引起中位数的变化。
正是由于这个特点,进行社会经济领域的数据分析时,将中位数作为中心常常比样本均值更具实际意义。
下面举例说明。
例如,在进行人口普查时,人口年龄的平均数是无法告诉人们社会是否已经进入老龄化,同时也没有告诉人们任何有关年龄分布状况的信息。
而中位数恰恰可以反映出这方面特征,如人口年龄的中位数较大,也就告诉我们至少有一半以上人口的年龄已经超过了这个数,从而对社会是否进入老龄化这样的问题会有所掌握。
因此西方许多国家人口普查或抽样调查中有关人口年龄的发布通常采用中位数进行描述。
又如我们想了解某地区居民年生活费收入,如果计算人均年生活费收入,那麽往往占人口比例很小的少数先富起来的人的收入很可能提高这个地区的人均收入指标,因而掩盖了贫富之间的差异,而忽略了反映一些处于贫困线以下居民的困难状况。