当前位置:文档之家› 数理统计结课论文

数理统计结课论文

黑龙江八一农垦大学数理统计中回归分析的探究与应用回归分析问题探究摘要本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。

首先,通过变量之间关系的概念诠释引出回归函数;其次,针对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。

关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB一、回归概念一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。

相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。

它从统计数据出发,提供建立变量之间相关关系的近似数学表达式——经验公式的方法,给出相关行的检验规则,并运用经验公式达到预测与控制的目的。

如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y 的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。

这是我们将它们之间的关系表示为其中是一个确定的函数,称之为回归函数,为随机项,且。

回归分析的任务之一就是确定回归函数。

当是一元线性函数形时,称之为一元线性回归;当是多元线性函数形时,称之为多元线性回归;当是非线性函数形时,称之为非线性回归。

二、回归分析2.1 一元线性回归分析2.1.1 一元线性回归模型设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。

对于取定的一组不完全相同的值做独立实验得到n对观察值一般地,假定x与Y之间存在的相关关系可以表示为,其中为随机误差且,未知,a和b都是未知参数。

这个数学模型成为医院线性回归模型,称为回归方程,它所代表的直线称为回归直线,称b为回归系数。

对于一元线性回归模型,显然有。

回归方程放映了变量X与随机变量Y之间的相关关系。

回归分析就是要根据样本观测值找到a和b适当的估计值,建立线性回归方程,从而利用这个公式来近似刻画变量x与随机变量Y之间的关系。

2.1.2 参数估计如何根据观测数据得到回归方程呢?一个直观的做法就是:选取适当的a和b,使得直线上的点与实验数据中对应点之间的误差尽可能小。

若记为直线上的点,为实验数据点,则表达式就刻画了直线上点之间的偏离程度。

通常我们记,这样就表示直线上相应点与全体数据点之间总的偏离程度。

总得偏离程度越小,回归方程就越能客观放映出变量x与Y之间的线性关系。

所以,在数理统计中,将能够使取得最小值的a与b所确定的方程视为变量x与Y之间的线性回归方程。

而且把利用这种思想求出的估计值成为参数a与b的最小二乘估计,这种方法成为最小二乘法。

我们利用微积分的知识来确定取得最小值的条件。

将表达式分别对位置参数a与b求偏导数,并令其为零,即得整理得上式称为正规方程组。

由于不完全相同,所以正规方程组的系数行列式不为零。

因此,我们得到的正规方程组的唯一解为因此,我们得到了x与y之间的线性回归方程或这个线性回归方程表明,经验回归直线L是通过这n个数据点几何重心且斜率为的直线。

为了计算方便起见,我们引入如下记号:这样2.1.3 回归系数的显著性检验在上面的论述中,运用最小二乘法求回归方程的条件除了要求诸不完全相同外,没有其它条件,也就是说无论变量x与Y是否具有线性关系,只要诸不完全相同,使用最小二乘法总能求出a与b的一个无偏估计与,并能得到变量x与Y的一个线性回归方程。

若变量x与Y之间根本不存在线性关系,那么这个线性回归方程就没有任何意义。

因此,实际问题中,我们必须对用最小二乘法求出的线性回归方程进行检验,来判断变量x与Y之间相关关系是否真的可由所得到的线性回归方程给出。

若果变量x与Y之间存在线性相关关系,那么模型中b不应为零。

否则,就有,这意味着x与Y没有任何关系。

因此,我们需要假设进行检验。

当拒绝时,认为变量x与Y之间有显著的线性相关关系,也称为回归效果显著。

否则,称为回归效果不显著。

这时变量x和Y之间的关系有很多种可能:或许二者之间关系不是线性的,或许除变量x之外还有其他不可忽视的因素对Y产生影响,甚至是它们的相关关系很弱,不是必须重视的。

为了给出显著检验的拒绝域,先做一些准备工作,记称SS为总偏差平方和,它反映了数据中变量取值的离散程度。

即称为回归平方和,它放映了n个回归数值相对于的离散程度,它是由x去不同的值而引起的。

将带入上述回归平方和表达式中,有记其中称为第i个残差,i=1,2,……,n。

称为残差平方和,呀反映了n次试验的累计误差。

由回归方程的意义知道,它是n次试验的累计误差的最小值,即小面推导残差平方和的计算公式,由推得这样我们就得到平方和的分解公式对回归系数的显著性检验一般有一下三种方法(1)t检验法(回归系数的显著性检验)取检验统计量可以证明,当成立时,于是,在显著性水平下,当时,拒绝,认为回归效果显著。

在回归分析中,t 检验用于检验回归系数的显著性,即检验因变量y对自变量x的影响程度是否显著。

(2)F检验法(回归系数的显著性检验)取检验统计量这里的F检验其实就是方差分析的内容,见下表2.1表2.1 一元线性回归方程的方差分析表方差来源平方和自由度均方F值回归 1误差 2总计n-1可以证明,当成立时,。

于是在显著水平下,确定临界值。

当时,就拒绝,说明总体回归系数,即回归方程是显著的。

由于,所以F检验法与T检验法基本上式一致的。

在线性一元回归分析中,回归方程的显著性检验和回归系数的显著性检验作用是相同的,两者可以互相替代。

(3)回归方程的拟合优度检验将回归平法和与总离差平方和之比定义为样本决定系数,又称判定系数,记为即决定系数是一个衡量回归直线对样本观测值拟合优度的相对指标,反映了变量的波动中能用变量所解释的比例。

的值总是在0~1之间,越接近1,拟合度就越好;反之,说明模型中给出的x对y信息还不充分,回归方程效果不好,应该进行修改,使x与y的信息得到充分利用。

2.1.4 预测与控制回归方程的重要应用就是预测和控制问题。

所谓控问题,就是对于给定的点,预测出y的取值范围。

控制问题则是问题的反问题,就是将y限制在某个范围内,应如何控制x的取值。

(1)预测问题设自变量与因变量服从模型且与样本相互独立。

首先,我们计算时的回归值将作为的预测值,但这样求出的预测值一般来说是有误差的。

产生误差的原因,一是由于只是平均值的一个估计,而的实际值很可能偏离它的平均值;二是因为的取值是依赖于估计值与的,而与是随机抽样误差的。

因此我们还需要求出的预测区间即置信区间。

双侧预测区的上下限为或双侧预测区的长度为在实际回归问题中,样本容量n常是很大的,这时对于在附近的x来说,我们能得较短的预测区间,而且当时长度最短,这事预测效果最佳。

反之,当得取值超出原始的试验点的范围之外时,由于此时预测区间长度过宽,将会导致预测效果不好。

当n较大时,通常d取1,且用代替,用代替。

这时预测区间的上下限简化为(2)控制问题在实际问题中,我们还会遇到控制问题,即若要求观察值y在某个区间内取值时,问应控制x在什么范围?也就是要求对于给定的置信度,求出相应的和,使得当时,所对应的观察值y落在内。

我们只谈论在n很大的情况,这时,这时公式可改写当与的值确定以后,根据上式就可以求出相应的和的值,作为x控制的端点值。

需要注意的是,为了有效控制x的范围区间,必须大于=2,即.2.2 多元线性回归分析在实际问题中,一般影响因变量的因素常常不止一个,这就是因变量与多个自变量相关关系问题,要用多元回归的方法来解决。

2.2.1 多元线性回归的数学模型多元线性回归模型的一般形式:式中,,,……,是个未知数,称为回归系数。

Y称为被解释量,而是个可以精确测量并可控制的一般变量,称为解释变量。

时,上式即为上一节分析的一元线性回归模型,时,我们就成上式为多元线性回归模型,这里是随机误差。

与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为的正态分布。

对于一个实际问题,如果我们获得n组观测数据,把这些观测值代入上式可得样本多元线性回归模型:写成矩阵形式为:其中:2.2.2 多元线性回归模型的基本假定为了对模型参数进行估计和推断,常常要对回归模型做如下的假定:1)解释变量是确定性变量,不是随机变量,且要求矩阵x中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。

2)随机误差项具有零均值和同方差,即i.j=1,2,...,n3)正态分布的假设条件:i.j=1,2,...n由上述假设和多元正态分布的性质可知:服从维正态分布,且。

2.2.3多元回归模型的参数估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样,所以选择的估计值与观测值之间的残差在所有样本点上打到最小,即使达到最小。

所以求,使得,即有多元函数求极值点的方法可求得回归系数的最小二成估计值为:另外,未知参数的一个无偏估计,实际就是残差均方和(MSE)。

2.2.4多元线性回归模型的显著性检验多元线性回归模型的显著性包括两方面的内容:一是对整个回归方程的显著性检验,即F检验;另一个是对个回归系数的显著性检验,即t检验。

在一元线性回归方程的检验时,这两个检验时等价的,但在多元线性回归模型的检验时两者却不同。

(1)回顾方程的显著性检验1.提出假设:2.构建F统计量,见表2.2:表 5.2 多元线性回归模型的方差分析表方差来源平方和自由度均方和F值回归P误差总计3.给定显著水平,查F分布表,的临界值;4.若,则拒绝,接受备择假设,说明总体回归系数不全为零,即回归方程是显著的;反之则认为回归方程不显著。

(2)回归系数显著性检验1.提出假设:;2.T检验的计算公式为:,其中是回归系数标准差,中第个主角线元素。

t值应该有p个队每一个可以计算一个t值。

3.给定显著水平,确定临界值;4.若,则拒绝;接受备择假设,说明总体回归系数。

(3)多元线性回归方程的拟合度检验采用调整的决定系数作为统计量的取值范围和数值大小的意义与是完全相同的。

2.3非线性回归分析在对实际的客观现象进行定量分析时,对变量间非线性相关问题的曲线拟合,处理的方法有:1.决定非线性模型的函数模型,对其中课线性化的问题则通过变量将其线性化,从而归结为前面的多元线性回归问题来解决。

相关主题