当前位置:文档之家› 王静龙《非参数统计分析》(1-8章)教案

王静龙《非参数统计分析》(1-8章)教案

王静龙《非参数统计分析》(1-8章)教案.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。

例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.5±0.1),随即抽取n=100件零件,数据如下:表1.18.503 8.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.504 8.502 8.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.489 8.506 8.497 8.505 8.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.505 8.510 8.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.507 8.346 8.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.492 8.501 8.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.505 8.511 8.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.504 8.493 8.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.501 8.495 8.461 8.504 8.691经计算,平均长度为cm x 4958.8=,非常接近中心位置8.5cm ,样本标准差为()1047.0112=--=∑=ni i n x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。

%66)1047.04958.84.8()1047.04958.86.8()4.8()6.8()6.84.8(≈-Φ--Φ=-Φ--Φ=≤≤σμσμX P这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。

以下是100个零件长度的分布表:这说明有90%的零件长度在)2.05.8(±cm 之间,有9%的零件不合格,所以工厂不需要换供应商。

例2 哪一个企业职工的工资高? 表1.3两个企业职工的工资显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为b a H =:0,备择假设为b a H >:0 则 ))11(,(~2σnmb a N y x +-- 若0H 为真,则)20()2(~11t n m t nm S y x t w =-++-=其中])()([2112122∑∑==-+--+=ni i m i i wy y x x n m S拒绝域为:}325.1{)}20({90.0≥=≥t t t 检测值为:282.1=t故不能拒绝原假设,认为两企业的工资水平无差异。

也可以用值-P 检验由于1073.0)282.1)20((=≥t P故不能拒绝原假设,认为两企业的工资水平无差异。

这里我们采用的显著性水平为0.1.但这个统计结论与实际数据不相符合。

主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。

这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。

非参数统计如同光谱抗生素,应用范围十分广泛。

参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。

第二章描述性统计§2.1 表格法和图形法表格法主要有列频数分布表和频率分布表例2.1 某公司测试新灯丝的寿命,列表如下:(1)找到最小值43,最大值116;(2)将组数分为5~20组,最小值),分16组,组距为5(最大值组距-对应的直方图为:§2.2 表格法和图形法数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。

1 3 5 3 3 1 323 24 4列1平均 2.833333标准误差0.34451中位数 3众数 3标准差 1.193416方差 1.424242峰度-0.20317偏度-0.00713区域 4最小值 1最大值 5求和34观测数12它的平均数,中位数,众数差不多大。

但大部分情况不是这样的,例如:§表2.3 某保险公司赔款样本数据频率分布表0--400 2400--800 32800--1200 241200--1600 191600--2000 102000--2400 62400--2800 32800--3200 23200--3600 13600--4000 1合计100平均数,中位数,众数分别为:1224,1000,600,这三者相差较大。

左峰的时候:众数≤中位数≤平均数,右峰的时候:平均数≤中位数≤众数。

平均数容易受到异常值的影响,故不能很好地代表中心位。

例如某地农户收入增长了2.9%,但减收的农户却是60%,为了更好地反映中心位,所以很α的切尾平均数。

人们熟知的去掉最大值与最小值的平均数也是切尾平均数。

多情况采用%§2.4 经济专业毕业生的月收入数据去掉最大值2340,最小值1700,的切尾平均数比总体平均数要小,它为1924,而总体平均数为1940.但中位数都一样,均为1905,中位数表现了稳定性。

因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。

另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:§2.5 有缺陷的小巧克力不合格品问题的频数频率分布表这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。

一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。

平均数与中位数为何可以表示数据的中心位置呢?主要是因为:2121)(min )(∑∑==-=-ni i ani ia x x x (2.1)∑∑==-=-ni iani i a x me x 11min (2.2)这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。

另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图2.8处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走的路最短。

* ** ** * * * * * * 1 2 3 4 5 6 7 8 9 中位数 平均数§2.2.2 表示离散程度的数值表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。

为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为.,,,,43210Q Q Q Q Q例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab)用统计软件Minitab画箱线图(见图2.9)图2.9四分位数的计算分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步:确定四分位数的位置.Qi 所在的位置=i(n+1)/4,其中i=1,2,3.n表示资料项数.第二步:根据第一步四分位数的位置,计算相应四分位数.例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25,28,34,35,36,37,38.则三个四分位数的位置分别为:Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9.变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数,即:Q1=22(岁)、Q2=28(岁)、Q3=36(岁)我们不难发现,在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1.例2:设有一组经过排序的数据为12,15,17,19,20,23,25,28,30,33,34,35,36,37,则三个四分位数的位置分别为:Q1所在的位置=(14+1)/4=3.75,Q2所在的位置=2(14+1)/4=7.5,Q3所在的位置=3(14+1)/4=11.25.变量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即:Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5; Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25. 二、资料已整理分组的组距式数列四分位数计算第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算); 第二步:根据累计次数确定四分位数的位置:Q1的位置 = (∑f+1)/4,Q2的位置 = 2(∑f +1)/4,Q3的位置 = 3(∑f +1)/4 式中:∑f 表示资料的总次数; 第三步:根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分位数):Qi=Li+fi ×di 式中:Li ——Qi 所在组的下限,fi ——Qi 所在组的次数,di ——Qi 所在组的组距;Qi-1——Qi 所在组以前一组的累积次数,∑f ——总次数. 例3:某企业工人日产量的分组资料如下: 根据上述资料确定四分位数步骤如下: (1)向上累计方式获得四分位数位置:Q1的位置=(∑f +1)/4=(164+1)/4=41.25 Q2的位置=2(∑f +1)/4=2(164+1)/4=82.5 Q3的位置=3(∑f +1)/4=3(164+1)/4=123.75(2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为:Q1=L1+■×d1=70+■×10=72.49(千克) Q2=L2+■×d2=80+■×10=80.83(千克) Q3=L3+■×d3=90+■×10=90.96(千克) shitouwa4320 2014-10-23§2.2.3 标准误假设产生数据的总体的均值为μ,方差为2σ。

相关主题