当前位置:文档之家› 关于一元线性回归的研究

关于一元线性回归的研究

关于一元线性回归的研究一、摘要随着社会的进步,科学技术的发展,地理科学专业越来越与人们的生活息息相关,并且运用到科学研究中去,包括计量地理学的许多科学研究方法。

计量地理学中的回归分析方法是最为基本的定量分析工具,很多表面看来好像与回归分析无关、并且好像难以解决的数学方法,可以通过回归分析方法的到简明的解释。

回归被用于研究可以测量的变量之间的关系。

线性回归则被用于研究特殊的关系,即可用直线或多维的直线描述的关系。

严格讲,回归分析方法就是处理变量之间具有相关关系的一种数理统计方法。

在各种回归分析方法中,一元线性回归方法最为基本。

所以一元线性回归方法很是受到人们的亲耐,并且得到广泛的运用,甚至可以说是被用于几乎是所有的研究领域,当然其中包括工学、物理、生物、科技、经济和人文科学等等。

但是回归分析方法也存在着一定的局限性,它对数据的处理是一大难题,且一般的社会工作者不太可能也没有必要对数理统计有深入的了解。

但是通过回归分析方法,我们可以更好地理解因子分析、判别分析、自回归分析、功率谱分析、小波分析、神经网络分析、其他等等。

可以通过建立回归分析与因子分析、判别分析、时间序列分析、灰色系统的预测分析等的数学联系。

通过熟练掌握这一分析方法,也将有助于其他数学工具的学习。

关键词:一元线性回归方法最小二乘法二、引言研究一个变量(因变量)对于一个或多个其他变量(解释变量)的数量依存关系。

其目的在于根据已知的解释变量的数值来估计或预测因变量的总体平均值。

分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。

(前一个变量被称为被解释变量或应变量,后一个(些)变量被称为解释变量或自变量。

)回归分析方法的主要内容可以概括为以下三点:(1)先从一组地理数据出发,然后确定这些要素和变量之间的定量数学表达式,也就是我们所说的回归模型(2)根据一个或者几个要素(自变量)的值来预测或者控制令一个要素(因变量)的取值(3)从影响某一地理过程中的许多要素中,找出哪一些要素和变量是主要的,而哪一些要素是次要的,以及这些要素之间又存在一些什么关系。

回归分析的基本步骤如下:(1) 首先画出两个变量的散点图。

(2) 然后求回归直线方程。

(3)最后用回归直线方程进行预报。

回归分析方法所研究的地理数学模型,根据要素和变量可以分为一元地理回归模型和多元地理回归模型两种。

而一元地理回归方法所要处理的问题,就是要解决两个要素和变量之间的定量关系。

当然,两个要素和变量之间的数量关系,有可能是线性关系,也有可能是非线性关系。

由此就产生了一个很重要的问题,即如何正确地分析与判断各要素之间的关系是线性回归模型还是非线性回归模型,如何正确地分析与判断在非线性回归模型中曲线又属于哪种模型。

所以,应该首先判定回归方程的类型,然后才能正确地求出回归模型的参数。

不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。

相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。

回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。

三、关于一元线性回归模型的建立一元线性回归分析的主要步骤:1、建立回归模型,研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量(Y,X),建立线性回归模型,确定解释变量和被解释变量。

如果不明确两个变量是否为线性关系,也可以根据散点图来分析。

建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。

建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。

2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。

3、估计模型参数。

利用样本数据,以OLS得到模型参数的估计值。

4、对回归模型和参数估计值进行检验。

检验回归结果是否正确反映经济现象,是否与理论相符。

包括理论检验和统计检验。

经济理论检验:参数的符号,大小是否与理论和实际相符。

若不符,寻找原因(数据?模型设定?理论错误?)统计检验:拟和优度检验,估计量、回归方程的显著性检验。

5、预测:对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。

假设有两个要素(变量)x和y。

x为自变量,y为因变量。

x可以表示降雨量、蒸发量、土壤中的无机质或有机质含量、地理纬度、地理经度等,y可以是河川径流量、土壤含水量等。

由此可以假定一元线性模型结构为y=A+Bx+E (1-1),在式子中,A、B为待定参数,E为随机变量。

参数A、B一般总是未知的,但是可以通过最小二乘法估算。

最小二乘估计OLS的性质(高斯- 马尔柯夫定理)在所有线性无偏估计量中,OLS估计量有最小方差,即OLS是BLUE (Best Linear Unbiased Estimator)。

1.线性性 2.无偏性3.最小方差性建立一元线性地理回归模型,就是用已有的地理数据来确定a和b的值。

现在以杭州市月平均气温x(c)和月平均降水量y(mm)为例,列成表计算如下:编号x y x^2 y^2 x*y1 4.5 72 20.25 5184 3242 6.5 85 42.25 7225 552.53 10 125 100 15625 12504 16.5 127 272.25 16129 2095.55 21 157 441 24649 32976 25 211 625 44521 52757 29 147 841 21609 42638 29 148 841 21904 42929 24.5 150 600.25 22500 367510 19 78 361 6084 148211 13 61 169 3721 79312 7 51 49 2601 357合计205 1412 4362 191752 27656(1)将列表中的x、y、x^2、y^2、x*y的合计值和n值分别代入公式,经过计算之后便可以得到回归系数b。

b = (x*y的求和—x的求和*y的求和/n) / (x*x的求和—x的求和的平方/n) = (27656—205*1412/12) / (4362—205*205/12) = 3534.33 / 859.92 = 4.11(2)将表中的x的平均值和y的平均值代入公式中,经过计算后便可以得到常数a。

a = y的平均值—b*x的平均值= 117.67 —(4.11*17.08) = 47.47(3)当参数a和b求出来以后,便可以得出一元线性地理回归模型,如下所示:y ~= a + b*x = 47.47 + 4.11*x公式中,47.47为常数,当杭州的月平均气温为0度时,杭州的月平均降水量为47.47:;4.11为回归系数,表示当杭州的月平均气温每上升1度的时候,杭州的月平均降水量将上升4.11毫米左右。

当然,上述的结果也可以通过计算机直接求得。

四、关于一元线性地理回归模型效果的检验当我们把一元线性地理回归模型求解出来以后,我们就应该对它如下这些问题进行进一步的分析:如它的效果怎么样、它所揭示的地理规律是否强不强、若用它来进行地理预测精度如何。

同时检验回归结果是否正确反映经济现象,是否与理论相符。

包括理论检验和统计检验。

经济理论检验:参数的符号,大小是否与理论和实际相符。

若不符,寻找原因(是数据,模型设定,理论错误谁的问题)统计检验:拟和优度检验,估计量、回归方程的显著性检验。

一元线性地理回归模型效果的分析步骤如下:(1)首先考虑回归模型估计的误差:由于线性回归模型所估计的y~值常常与实测值y不完全相等,因此反映在散点图上的实测值y和由x值所估计的y~值常常不相吻合,经常散步在回归直线的附近,然而这种差异就是由于用线性回归模型由x值估计y~值时所产生的误差。

这种误差,被我们称为回归方程估计误差。

回归方程估计误差的大小以标准差的形式来估计,并称为标准估计误差(也称剩余标准差),并记作S,其计算公式可以表示为S = 根号下{[(y—y~)*(y—y~)的求和] / (n—2)} 。

标准估计误差在计量地理学中是一个非常重要的物理量,但是由于它的单位和y的单位相同,因此在实际地理问题中便于比较和检验,而且我们只用比较S 和允许范围内的偏差就可以了。

所以,它成为了检验线性回归效果的不可替代的标志,与此同时,它也成为了衡量地理预测精度的指标。

(2)然后对回归模型的显著性进行检验:也就是要进一步来研究观察值y 的变化情况。

对于n次观测值y1,y2,y3,y4,…,yn之间的差异,我们可以用观测值yi和它的算术平均值y^的离差平方和来表示,称为总的离差平方和,并且记作S总,其计算公式可以表示为S总= (y—y^)*(y—y^)的求和。

由此制图,我们可以观测出,每一个观测点的离差都可以分解成为y—y^ = (y—y^) + (y~—y^),然后将式子两边平方,再对n个点子进行求和,可以得到:(y—y^)*(y—y^)的求和= (y—y^)* (y—y^)的求和+(y~—y^) * (y~—y^)的求和。

式子中的第二项是回归值y^和均值y~之差的平方和,因为y^ = a + bx,因此可以把y~—y^看作是由x的变化而引起y值的变化。

所以y~—y^的求和反映了在y的总变差中由x与y的线性关系而引起y的变化部分,故称为回归平方和,记作U。

前式左边第一项是所有观测点yi离回归直线y^的残差平方和,它表示除了x对y的线性影响以外的一切因素对y的变异影响,因此称它为剩余平方和,或者是残差平方和,记作Q。

故前式也可以写成S总= U + Q。

由这个式子我们可以得到结论:U和Q的大小将决定回归效果的好坏。

由此可见,利用相关系数也可以计算回归平方和与剩余平方和,所以可以根据相关系数来判定回归效果的好坏。

而且相关系数的绝对值越大,回归平方和U也越大,剩余平方和Q就越小,因此回归效果越好。

此外,对每个平方和都有一个自由度与它相联系。

正如总平方和可分解成回归平方和与剩余平方和一样,总平方和的自由度f总也等于回归平方和的自由度fu与剩余平方和的自由度fq之和,也就是f总= fu + fq。

在线性回归问题中,f总= N—1,而fu则对应于自变量的个数,所以在这里fu = 1,fq = N—2。

我们把这种平方和与自由度同时进行分解,并用F检验法对整个回归方程进行显著性检验的方法,就称为方差分析。

在F检验中,将应用各种平方和的公式归纳如下:在具体检验时,可在方差分析表上进行。

(3)模型检验的意义:经济意义检验,也就是检验所建的模型的是否符合经济理论,主要是检验模型参数的符号和大小是否与经济理论以及人们的经验一致;统计检验中的拟合优度检验(判定系数)是指对样本回归线与样本观测值之间拟合程度的检验。

相关主题