毕业论文声明本人郑重声明:1.此毕业论文是本人在指导教师指导下独立进行研究取得的成果。
除了特别加以标注地方外,本文不包含他人或其它机构已经发表或撰写过的研究成果。
对本文研究做出重要贡献的个人与集体均已在文中作了明确标明。
本人完全意识到本声明的法律结果由本人承担。
2.本人完全了解学校、学院有关保留、使用学位论文的规定,同意学校与学院保留并向国家有关部门或机构送交此论文的复印件和电子版,允许此文被查阅和借阅。
本人授权大学学院可以将此文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本文。
3.若在大学学院毕业论文审查小组复审中,发现本文有抄袭,一切后果均由本人承担,与毕业论文指导老师无关。
4.本人所呈交的毕业论文,是在指导老师的指导下独立进行研究所取得的成果。
论文中凡引用他人已经发布或未发表的成果、数据、观点等,均已明确注明出处。
论文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究成果做出重要贡献的个人和集体,均已在论文中已明确的方式标明。
学位论文作者(签名):年月关于毕业论文使用授权的声明本人在指导老师的指导下所完成的论文及相关的资料(包括图纸、实验记录、原始数据、实物照片、图片、录音带、设计手稿等),知识产权归属华北电力大学。
本人完全了解大学有关保存,使用毕业论文的规定。
同意学校保存或向国家有关部门或机构送交论文的纸质版或电子版,允许论文被查阅或借阅。
本人授权大学可以将本毕业论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存或编汇本毕业论文。
如果发表相关成果,一定征得指导教师同意,且第一署名单位为大学。
本人毕业后使用毕业论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为大学。
本人完全了解大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存或汇编本学位论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权大学可以将本学位论文的全部或部分内容编入学校有关数据库和收录到《中国学位论文全文数据库》进行信息服务。
在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。
论文作者签名:日期:指导教师签名:日期:线性回归模型的研究【摘要】:本文首先对回归分析的定义、主要内容、基本思想、实现过程进行了阐述,指出了它的优点及存在的问题。
对NBA比赛中的各因素和中国人口的预测进行了研究。
最后对整篇文章做了个总结。
【关键词】:回归分析;回归模型;检验;预测1 引言回归分析最早是由19世纪末期高尔顿(Sir Francis Galton)发展的。
1855年,他发表了一篇文章名为“遗传的身高向平均数方向的回归”,分析父母与其孩子之间身高的关系,发现父母的身高越高或的其孩子也越高,反之则越矮。
他把儿子跟父母身高这种现象拟合成一种线性关系。
但是他还发现了个有趣的现象,高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高,矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。
高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”。
于是“线形回归”的术语被沿用下来了。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。
一般采用线性回归分析,由自变量和规定因变量来确定变量之间的因果关系,从而建立线性回归模型。
模型的各个参数可以根据实测数据解。
接着评价回归模型能否够很好的拟合实际数据;如果不能够很好的拟合,则重新拟合;如果能很好的拟合,就可以根据自变量进行下一步推测。
回归分析是重要的统计推断方法。
在实际应用中,医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。
从而推动了回归分析的快速发展。
2 回归分析的概述2.1 回归分析的定义回归分析是应用极其广泛的数据分析方法之一。
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
2.2 回归分析的主要内容(1)从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。
估计参数的常用方法是最小二乘法。
(2)对这些关系式的可信程度进行检验。
(3)在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
(4)利用所求的关系式对某一生产过程进行预测或控制。
回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
2.3一元线性回归与多元线性回归的分析一元线性回归模型, 是分析两个变量之间相互关系的数学方程式, 其一般表达式为y=a+bx式中, y表示因变量的估计值, x 表示自变量, a,b 称为回归模型的待定参数, 其中b 又称为回归系数。
上述的回归方程式在平面坐标系中表现为一条直线即回归直线。
当b>0 时y 随x 的增加而增加, 两变量之间为正相关关系; 当b<0 时,y 随x 的增加而减少, 两变量之间为负相关关系; 当y为一个常量时, 不随x的变动而变动。
这样就为我们判断现象之间的关系, 分析现象之间是否处于正常状态提供了一条标准。
多元线性回归模型旨在分析两个或者两个以上的自变量作用后产生的结果,即多个自变量下的因变量结果,研究的是随机变量y与多个普通变量x1,x2,…x p, (p≥2),的相关关系。
表达式为y=β0 +β1 x1 +β2 x2 +…βp x p+ε,对随机误差项ε常假定E(ε)=0,Var(ε)=σ2。
并且称E(y)= β0 +β1 x1 +β2 x2 +…βp x p为理论回归方程。
在实际应用中,如果获得n组观测数据(x i1 ,x i2,…,x ip ;y i),i=1,2,…,n,则线性回归模型变为y=β0 +β1 x i1 +β2 x i2 +…βp x ip +εi 。
并且,量y与自变量x之间的关系往往是非线性关系,而不是简单的线性关系。
但在非线性回归分析研究实际问题时,往往选择可以通过一定变换后能转换成线性关系的研究模型,从而避免了非线性回归分析的计算的复杂性。
随着技术的不断进步,研究过程中经常运用到计算机,复杂的非线性回归分析模型也将被应用在研究中,而且会越来越频繁。
2.4回归分析的基本思想在回归分析中,把变量分为两类。
一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。
回归分析研究的主要问题是:(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量X对因变量Y有无影响;(4)利用所求得的回归方程进行预测和控制。
2.5回归分析的实现过程(1)确定变量:明确预测的具体目标,也就确定了因变量。
如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。
通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
(2)建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
(3)进行相关分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。
只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。
进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
(4)计算误差量:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。
回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
(5)确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
2.6回归分析的优缺点回归分析的优点是在分析多个因素模型的时候,更加的简单有效,可以准确的计量多个因素之间的相关程度与回归拟合程度的高低,从而提高预测方程式的准确性。
但有时候在回归分析中,选用何种因子和该因子采用何种表达式只是一种推测,这影响了因子的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制。
3 回归分析的应用3.1一元线性回归分析中国人口发展的第四个高峰期是在新中国建立之后的50年。
在这一时期里,中国人口的大展呈现着许多复杂的特点,而且这些特点都与中国历史时期人口有着密切的关系人口问题一直是一个全球性问题,也是中国经济社会发展和可持续发展的一个基本问题。
2010年,中国人口总数已经达到134091万,全世界大约683059万人。
全世界平均五个人中就有一个是中国人。
中国人口的特点是基数大、育龄人群和农村人口的比重高、增长速度较快而且地区分布不均匀。
虽然中国人口基数大,但是每年净增人口数也很大。
那么未来人口增长趋势如何呢,未来男性比重、人口老龄化趋势、城市人口比重又如何呢?查阅大量资料得到以下数据观察历年总人口散点图,发现变量间呈线性相关趋势,所以应该选取一元线性回归的方法。
通过spss软件回归分析得到下图模型拟合度检验模型汇总b模型R R 方调整R 方标准估计的误差1 .995a.990 .989 393.666a. 预测变量: (常量), 年份。
b. 因变量: 总人口其中第二列R表示复相关系数,其反映的是自变量与因变量之间的密切程度。
其值在0到1之间,越大越好。
第三列R方是复相关系数的平方,又称决定系数。
通过观察这几个数据,可知拟合情况很好。
方差分析表Anova a模型平方和df 均方 F Sig.1 回归217948139.136 1 217948139.136 1406.364 .000b 残差2169618.301 14 154972.736总计220117757.438 15a. 因变量: 总人口b. 预测变量: (常量), 年份。