当前位置:文档之家› 初中数学数学论文线性回归分析的数学模型

初中数学数学论文线性回归分析的数学模型

线性回归分析的数学模型在实际问题中常常遇到简单的变量之间的关系,我们会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.这些问题中最简单的是线性回归.线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.本文中详细的阐述了线性回归的定义及其线性模型的简单分析并应用了最小二乘法原理.具体介绍了线性回归分析方程参数估计办法和其显著性检验.并充分利用回归方程进行点预测和区间预测.但复杂的计算给分析方法推广带来了困难,需要相应的操作软件来计算回归分析求解操作过程中的数据.以提高预测和控制的准确度.从而为工农业生产及研究起到强有力的推动作用.关键词:线性回归;最小二乘法;数学模型目录第一章前言 (1)第二章线性模型 (2)第一节一元线性模型 (2)第二节多元线性模型 (4)第三章参数估计 (5)第一节一元线性回归方程中的未知参数的估计 (5)第二节多元线性回归模型的参数估计 (8)第四章显著性检验 (13)第一节一元线性回归方程的显著性检验 (13)第二节多元线性回归方程的显著性检验 (20)第五章利用回归方程进行点预测和区间预测 (21)第六章总结 (26)致谢 (27)参考文献…………………………………………………………………………第一章前言回归分析是对客观事物数量依存关系的分析.是数理统计中的一个常用的方法.是处理多个变量之间相互关系的一种数学方法.在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.常见的关系有两种:一类为“确定的关系”即变量间有确定性关系,其关系可用函数表达式表示.例如:路程s,时间t,与速度v之间有关系式:s=vt 在圆体给与半径r之间有关系式v= 另外还有一些变量.他们之间也有一定的关系,然而这种关系并不完全确定,不能用函数的形式来表达,在这种关系中至少有一个变量是随机的.例如:人的身高与体重有一定的关系,一般来讲身高高的人体重相对大一些.但是它们之间不能用一个确定的表达式表示出来.这次变量(或至少其中有一个是随机变量)之间的关系.我们称之为相关关系.又如环境因素与农作物的产量也有相关关系,因为在相同环境条件下农作物的产量也有区别,这也就是说农作物的产量是一个随机变量.回归分析就是研究相关关系的一种数学方法,是寻找不完全确定的变量间的数学关系式并进行统计推断的一种方法.它能帮助我们从一个变量取得的值去估计另一个变量的值.在这种关系中最简单的是线性回归.线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.第二章线性模型第一节一元线性模型在工农业生产及科研中最常遇到的配直线问题,就是回归分析的统计推断方法来求经验公式(线性回归)的问题.如:例1 今有某种大豆脂肪含量x(%)与蛋白质含量y(%)的测定结果如下表所示:试求它们之间的关系(检验公式).x16.517.518.519.520.521.522.5y43.542.642.640.640.338.737.2首先将这组数据在直角坐标系上描成点,如下图:一般的,按此方法描点所得的图成为散点图.从图上可以看出:这些数据描出的点分布在一条直线附近.于是推出他们大致可以表示为线性关系这里再y上加“ ^ ”是为了区别于他的实际值y,因为y与x一般不具有确定的函数关系,这样,在散点图的启发下,我们选定了回归方程是线性的.然后根据统计推断方法来估计出未知数和从而确定所求的经验公式.一般的,设随机变量y与x之间的相关关系可以用线性模型, ~N(0, ) (1)来表示.这里x是试验或观察中可以控制或精确观测的变量.即非随机变量,y是可观测的随机变量是不可观测的随机变量(它表示模型误差,是除去x对Y的先行影响之外的且不能测出的其它各个随机因素对Y的影响的总和)通过实验观测可得到关于变量x和Y的一组数据(,),(,),……(,)因为对于任意一个(i=1,2,……n),在的观测值在取定前不能精确预言它一定能取什么值,故把看作是随机变量Y的观测值.而相互独立的随机变量,,……为Y的样本.我们知道,样本与样本观测值之间的区别是:前者是随机变量,后者为取定的数值,但为了叙述方便,今后把样本观察值也成为样本.在符号上均用,,……来表示.具体表示的意义也可由上下文分析清楚,设观测值与样本之间满足关系式:= (i=1,2,……,n)(2)其中~(i=1,2,……,n)且相互独立.如果两个变量间的关系用上述线性模型描述,则它们之间存在线性相关关系由(1)有: E(Y)=我们希望根据观测的数据,求出, 的估计量,这样就可以利用方程(3)去估计随机变量Y的数学期望E(Y).也就是说,将,代入方程(1)并略去误差,就得到了随机变量Y和变量x的线性关系式(3).方程(3)通常称为Y对x的线性回归方程或回归方程,其图形称为回归直线.[1]对于(1)和(2)所确定的线性模型,所考虑的统计推断主要问题是:未知参数和的估计:检验x和Y之间的关系是否可确信是线性关系,即对假设(1)进行检验,对Y进行预测等.第二节多元线性模型一般来讲,影响结果Y的因素往往不止一个.设有,……共p个元素.这时要用图来确定它们的关系是困难的.常可根据经验做出假设.其中最简单的是假设它们之间有线性关系:……(4)式中,……都是可精确测量或可控制的一般变量,Y是可观测的随机变量,,,……,都是未知参数,是服从分布的不可观测的随机误差.我们对(4)获得了n组相互独立的观测值(样本).(;,,……)(i=1,2,……,n)(5)于是由(4)式可知具有数据结构式:i=1,2,……,n(6)其中各个(i=1,2,……,n)相互独立,且均服从.这就是p元线性回归模型.对于(4)所确定的模型.统计推断的主要问题是:根据样本去估计未知参数,,……,、,从而建立Y与,……间的数量关系式和对比得到的数量关系式的可信度进行统计检验;检验各变量,……分别对指标是否有显著影响.[2]第二章参数的估计第一节一元线性回归方程参数的估计有多种确定回归方程也就是确定未知参数, 的估计量,,的方法其中最常用的是“最小二乘法”.我们将采用“最小二乘法原理”来求出,也就是求,使误差(i=1,2,……,n)的平方和Q= = (7)为最小的,值作为参数, 的估计量.由(7)知Q是, 的二元函数.即Q=Q( , ).按二元函数求极值的方法可得联立方程组:(8)这个方程组称为正规方程组即:(9)解此方程组.由(9)的第一式得因此的估计量为:(10)其中,将(10)式代入(9)中的第二式可解得的估计量为(11)这样:利用(10)和(11)确定的, 使平方和Q达到最小,从而求出回归方程这里,分别表示由(10)和(11)确定的, 的值并称为经验截距;为经验回归系数,简称为回归系数,而是的无偏估计量.由(10)可得回归方程的另一种形式:(12)由此可知,回归直线通过点(,),即通过由馆测值的平均值组成的点,并且回归方程由回归系数完全确定.一般的,把由回归方程确定的x的对应值称为回归值.根据观测数据,利用(10)和(11)来求回归直线时,常把(11)中的分子和分母分别记为和,且按下面的公式计算:所以(10)和(11)两式可记作:(13)(14)又有公式: = = (15)然而,对总体中的未知参数进行估计,其主要目的还是建立一元线性回归方程.虽然有一个正规方程组存在实际上并不研究它.以下是建立一元线性回归方程的具体步骤:(1)计算,,,,;(2)计算,,(在回归方程作显著性检验时用);(3)计算和写出一元线性回归方程.[3]序号116.543.5272.251892.25717.75217.542.6306.251814.76745.50318.542.6342.251814.76788.10419.540.6380.251648.36791.70520.540.3420.251624.09826.15621.538.7462.251497.69832.05737.2506.251383.84837.00823.536.0552.251296.00846.00924.534.0600.251156.00833.00184.5355.53842.2514127.757217.25从而可求得=20.5,=39.5,=60,=-70.5,-1.175,= - =63.588所求回归方程为63.588-1.175x例2 设两个变量x与Y由某种相关关系,测得它的一组数据如下表所示,试求其回归方程.x49.250.049.349.049.049.549.849.950.250.2Y16.717.016.816.616.716.817.017.017.1解:根据计算得=49.61,=16.85,=24613.51,=8359.94=0.3293,= - =0.5129所以回归方程为0.5129+0.3293x.第二节多元线性回归模型的参数估计设,……,Y有一组观测值(样本);(,……,)(i=1,2,……n).我们希望由估计,,……,所决定出的回归方程能使一切与之间的偏差达到最小.根据最小二乘法的原理即:要求=所以只要求偏离平方和达到最小的为书写方便以下把“”书写成“”根据微积分中值原理和最小二乘法估计是下列方程组的解(j=1,2,…,n)(16)经整理即得关于的一个线性方程组………………………(17)此方程组(17)称为正规方程组.借此方程组就可求得参数的回归值为了求解方便我们将(17)是写成矩阵的形式,令1 …X= 1 …,Y= , B= …………………1 …记(17)式的系数矩阵为A,常数项矩阵为B,则A恰为,B恰为即:1 1 … 1 1…= … 1 ………………………… 1 …n …= …=A……………1 1 (1)= …= =B …………………因此用矩阵的形式可表式为= 在回归分析中通常存在这时最小二乘估计可表式为:= (18)当我们求出了的最小二乘估计后,就可以建立多元回归方程.[5]例 3 某地区所产原棉的纤维能力Y与纤维的公制支数,纤维的成熟度有关,现实测得28组数据(见下表)试建立Y关于,的二元线性回归方程.ii154151.584.031562081.703.81257001.384.011657981.594.00356741.574.001755511.614.19456981.5518 6059 1.57 3.81 5 6165 1.52 3.73 19 6060 1.53 3.96 6 5929 1.60 4.09 20 6059 1.55 3.93 7 7505 1.14 2.95 21 6370 1.45 3.72 8 5920 1.50 3.90 22 6102 1.49 3.84 9 7646 1.18 2.89 23 6245 1.501065561.273.482466441.453.381164751.503.602561911.583.761259071.503.772663521.503.791356971.543.942759991.593.791466181.23.662858151.74.09解:先求出方程组的系数矩阵及常数向量,再求=172388 =6156.7143 =41.84 =1.4943=106.09 =3.7889=1068433202 =7089539.72=63.0632 =0.5423=256087.04 =-1509.8857=649111.28 =-4054.5386=159.4481 =0.9193=404.5287求,的正规方程组为7089539.72 -1509.8857 =-4054.5386-1509.8857 +0.5423 =0.9193解得=-0.0005181 ,=0.2527 ,= =6.6011所以Y的关于,的二元线性回归方程为=6.6011-0.0005181 +0.2527第四章显著性检验第一节一元线性回归方程的显著性检验由上面的讨论知,对于任何的两个变量x和Y的一组观测数据()(i=1,2,……,n)按公式(10)和(11)都可以确定一个回归方程然而事前并不知道Y和x之间是否存在线性关系,如果两个变量Y和x之间并不存在显著的线性相关关系,那么这样确定的回归方程显然是毫无实际意义的.因此,我们首先要判断Y 和x是否线性相关,也就是要来检验线性假设是否可信,显然,如果Y和x之间无线性关系,则线性模型的一次项系数=0;否则0.所以检验两个变量之间是否存在线性相关关系,归根到底是要检验假设根据现行假设对数据所提的要求可知,观察值,,……之间的差异,是有两个方面的原因引起的:(1)自变量x的值不相同;(2)其它因素的影响,检验是否成立的问题,也就是检验这两方面的影响哪一个是主要的问题.因此,就必须把他们引起的差异从Y的总的差异中分解出来.也就是说,为了选择适当的检验统计量,先导出离差平方和的分解因式.[6]一、离差平方和的分解公式观察值(i=1,2,……,n),与其平均值的离差平方和,称为总的离差平方和,记作因为=其中:=2=2=2=2所以=由于中的,为(10)和(11)所确定.即它们满足正规方程组(9)的解.因此定义项=于是得到了总离差平方和的分解公式:其中(19)是回归直线上横坐标为的点的纵坐标,并且的平均值为,是这n个数的偏差平方和,它描述了的离散程度,还说明它是来源于的分散性,并且是通过x对于Y的线性影响而反映出来的,所以,称为回归平方和而=它正是前面讨论的的最小值,在假设(1)式的条件下它是由不可观察的随机变量引起的,也就是说,它是由其它未控制的因素及试验误差引起的,它的大小反映了其它因素以及试验误差对实验结果得影响.我们称为剩余平方和或残差平方和.[7]二、、的性质及其分布由以上分析可知,要解决判断Y和x之间是否存在线性相关关系的问题,需要通过比较回归平方和和剩余平方和来实现.为了更清楚地说明这一点,并寻求出检验统计量,考察估计量,的性质及其分布.(一)的分布由(14)式可知=在相互独立且服从同一分布的假定下由(2)知,,……是P个相互独立的随机变量,且(i=1,2,……,n)所以他们的平均值的数学期望为:因为是的线性函数,且有:这说明是的无偏估计量且的方差为所以即:同样可证,对于任意给定的其对应的回归值(它是的点估计)适合( ,(二)方差的估计及分布因为===由、及可得=又由于及E(L),E(U)得=E(L)+E(U)=(n-2)从而,说明了= = 是的无偏估计量,由此可见,不论假设成立与否,是的一个无偏估计量,而仅当假设成立时,才是的一个无偏估计量,否则它的期望值大于.说明比值(20)在假设成立时有偏大倾向,也就是说,如果F取得值相当大,则没有理由认为x和Y之间有线性相关关系,也就是下面我们将采用F作为检验统计量的原因.另外,由于,是的最小二乘估计,由(8)式可知=0 ,=0这表明中的n个变量,……之间有两个独立的线性约束条件,故的自由度为n-2因此[8]三、F检验由以上讨论可知,当成立时;且二者相互独立,由此可得因此可用这个统计量F作为检验假设的检验统计量.对给定的显著性水平,查自由度为(1,n-2)的F分布的临值表,得临界值,如果由实际观察值计算所得的F> 则否定假设,即认为x,Y之间线性相关关系显著.否则不能否定,而认为线性相关关系不显著.这种采用F检验法来对回归方程来进行显著性检验的方法称为方差分析.在F检验中,,的计算公式如下==(21)其中=例4 对例1进行线性关系显著性检验.解:n=9=-1.175×(-70.5)=82.84= =85.50-81.84=2.66具体检验在如下的方差分析表上进行方差来源平方和自由度平均平方和F值回归82.84182.84218.00剩余2.6670.38总和85.488查下表对=0.01 ,今说明线性关系极显著,即回归方程是有意义的.[9]例5 某种物质在不同的温度下可以吸附另一种物质,如果温度x(单位:℃)与吸附重量Y (单位:mg)的观测值如下表所示:温度1.51.82.43.03.53.94.44.85.0重量4.85.77.08.310.912.413.113.615.3试求其回归方程并作显著性检验.解:根据上述观测值得到 n=9=30.3 =91.11=115.11 =345.09 =1036.65=13.100 =38.387 =114.516=3.367 =10.122 = =2.9303=0.2569所求线性回归方程为=0.2569+2.9303x因为=114.516 =112.485 所以= =2.031由n-2=7 =12.2=387.69 F>12.2所以回归方程极显著第二节多元线性回归方程的相关性检验由于的无偏估计量为将总的离差平方和进行分解可得到+ 其中,这里叫做残差平方和,其自由度为n,叫做回归平方和,自由度为n-p-1.检验假设是否成立在成立时因此可利用F检验法检验线性相关关系的显著性如果F〉,则可认为与,……之间的线性相关关系显著;如果则可以认为与,……之间的线性相关关系特别显著.否则可认为与,……之间不存在线性相关关系,所建立的线性回归方程是不显著的.例6 对例1 的回归方程进行显著性检验.解:经过计算得=23510 ,= =4734.6=248284〉(2,10)=7.56所以所求二元线性回归方程线性极其显著.[10]第五章利用回归方程进行点预测和区间预测若线性回归方程作显著性检验的结果是拒绝,也就是拒绝回归系数=0的假设,便可以利用回归方程进行点预测和区间预测.这是人们关注线性回归的主要原因之一.(1)当x= 时用预测的观测值称为点预测,根据得的观测值的点预测是无偏的(2)当x= 时用适合不等式的统计量G 和H所确定的随机区间预测的取值范围称为区间预测,而称为的预测区间若与样本的各相互独立,则根据服从正态分布, ,Z与Q 相互独立可以导出因此的预测区间为与一元线性回归一样,当给定时,可求出相应的的点估计.亦可求出区间估计,还可以给出相应的的预测区间.[11]影响预测精度的主要因素有:(1),但是不可改变的.一般的,越小精度越高.(2)n,n越大精度越高.因此,要尽量扩大样本容量.(3)自变量取值不要太集中;预测点离越近精度越高.例7 一些夏季害虫的盛发期与春季温度有关,现有1956-1964年间3月下旬至4月中旬平均温度的累计数x和一代三螟蛾盛发期Y(以5月10日为0)的观测值如下:温度35.534.131.740.336.840.231.739.244.2盛发期12.169273139-1试求线性回归方程并进行F检验;若=40 ,求的0.95预测区间解:根据上述观测值得到的 n=9=333.7 =70=12517.49 =2436.4 =794=144.6356 =-159.0444 =149.5556=37.077 =7.7778= =-1.0996 =4835493所以所求的线性回归方程为=48.5-1.1x当=40时=4.56 ,=8.36 ,所以的0.95预测区间为(-3.80,12.92)检验说明当3月下旬至4月下旬平均温度的累计数为40时,应该预测一代螟蛾盛发期为5月6日——5月23日之间,并且预测100次将有95次是正确的.例8 下表列出在不同挂重x下,弹簧长度y的测量值,设测量值y对给定的x服从正态分布.挂物的重量(牛)50100150200250300弹簧的长度(厘米)7.258.128.959.9010.911.8(1) 求线形回归法方程;(2) 检验假设;(3) 若回归效果显著,求b的置信度为95%的置信区间;(4) 求在x=160(牛)时,y的置信度为0.95的预测区间.解:(1) =175, =227500,=9.4867 =554.6594n=6, =10762=27500-6×=43750=10762-6×175×9.4867=800.965=554.6594-6×=14.6745=0.01831=9.4867-0.01831×175=6.2825所以=6.2825+0.01831x(2)=0.01831×800.965=14.6657=14.6745-14.6657=0.008831=0.05,=7.71=6642.9392>7.71所以,拒绝,认为重量x与弹簧长度y有显著的线性关系.(3)=0.04697,2.7764b的置信度为0.95的置信区间为(0.01769,0.01893)(4)×160=9.2121=0.1412所以,y的置信度为0.95的预测区间为(9.0709,9.3533)例9 假设儿子的身高y与父亲的身高x适合一元线性回归模型,观察了10对父子的身高(英寸)得数据如下:X60626465666768707274y63.665.56665.666.967.167.463.370.170(1)建立y与x的回归方程.(2)对线性回归方程作假设检验(=0.05).(3)当=69时,求的信置度为0.95的预测区间.解:(1)设回归方程为:y= .按所给数据计算,得=668,=66.8,=44794=665.1,=66.51,=44283.93=44492.4 =171.6=48.129=63.72所以=0.3713,=41.7072线性回归方程为:=41.7072+0.3713x.(2)需检验假设b=0检验统计量因为=23.6592 ,=24.4698,于是F=23.6592(10-2)/24.4698=7.735而=5.32<7.735=F,故认为回归是显著的.拒绝原假设(3)的置信度为1- 的预测区间为当=69时,=41.7072+0.3713×69=67.3269,从而4.2837.所以预测区间的一个观测值为(63.0432,71.6106)第六章结论本篇论文从基础的一元线性回归入手深入的分析了多元线性回归方程的参数性质及其显著性检验,并对一元线性回归方程进行点预测和区间预测,并给出实例进行解析.但复杂的计算给分析方法推广带来了困难,需要相应的软件来简化回归分析求解的操作过程.。

相关主题