统计系课程实验论文基于回归分析的人口数量预测学号:05姓名:李洋年级:2014级专业:统计学课程:回归分析指导教师:姜喜春完成日期:2016年6月19日目录摘要 .................................................................................................... 错误!未定义书签。
前言 .................................................................................................... 错误!未定义书签。
第1章一元线性回归 .......................................................................... 错误!未定义书签。
1.1 指标的选择 ............................................................................. 错误!未定义书签。
1.2 样本确定 ................................................................................. 错误!未定义书签。
1.3 一元回归分析 ......................................................................... 错误!未定义书签。
1.3.1 绘制总人口与粮食产量的散点图 ............................ 错误!未定义书签。
1.3.2 设定理论模型 ............................................................ 错误!未定义书签。
1.3.3 回归诊断 .................................................................... 错误!未定义书签。
第2章多元线性回归 .......................................................................... 错误!未定义书签。
2.1 数据中心化标准化 ............................................................... 错误!未定义书签。
2.2 多元回归模型建立 ............................................................... 错误!未定义书签。
2.3 逐步回归法 ........................................................................... 错误!未定义书签。
2.4 多重共线性 ......................................................................... 错误!未定义书签。
2.3.1 多重共线性检测 ........................................................ 错误!未定义书签。
2.4 主成分分析 ........................................................................... 错误!未定义书签。
2.4.1 主成分分析模型建立 ................................................ 错误!未定义书签。
第3章非线性模型 ............................................................................ 错误!未定义书签。
3.1 曲线回归 ............................................................................... 错误!未定义书签。
3.1.1 曲线拟合 .................................................................... 错误!未定义书签。
3.2 Logistic模型 ......................................................................... 错误!未定义书签。
结论 .................................................................................................... 错误!未定义书签。
参考文献 ................................................................................................ 错误!未定义书签。
回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。
回归分析可以说是统计学中内容最丰富、应用最广泛的分支。
这一点几乎不带夸张。
包括最简单的t检验、方差分析也都可以归到线性回归的类别。
而卡方检验也完全可以用logistic回归代替。
众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等。
关键词:线性回归;非线性回归;logistic回归最早的形式回归的方法是最小二乘法,这是在1805年出版的勒让德,和高斯在1809年。
勒让德和高斯都采用的方法确定的问题,从天文观测,有关Sun的机构(主要是彗星,但后来也新发现的小行星)的轨道。
1821年,高斯发表最小二乘法理论的进一步发展,在包括高斯-马尔可夫定理的一个版本。
弗朗西斯·高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。
这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这种现象也被称为向均值回归)。
对高尔顿,,回归只有这个生物意义,Udny圣诞节和皮尔逊但他的工作,后来扩展到更一般的统计范围内。
在圣诞节和Pearson,工作的响应和解释变量的联合分布被假定为高斯。
这个假设RA费舍尔在1922年和1925年,他的作品被削弱。
费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。
在这方面,费舍尔的假设是高斯1821年制定的。
在20世纪50年代和20世纪60年代,经济学家旧机电台计算器,计算回归。
1970年以前,有时长达24小时接收从一个回归的结果。
回归方法继续是一个活跃的研究领域。
在最近的几十年中,新的方法已经制定了稳健回归,回归涉及的相关反应,如时间序列曲线和增长曲线,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢失的数据,非参数回归,贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。
第1章一元线性回归1.1 指标的选择影响人口增长的主要因素经济因素,经济因素对人口自然增长的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。
一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。
在现代生产力水平下,人口的自然增长率往往随着经济水平的提高而下降。
经济因素对人口机械增长也有重要影响。
通常情况下,经济发达或发展速度较快的地区,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。
与此同时粮食产量、出生率、死亡率,也是影响人口增长的因素。
符号说明:用1x、2x、3x、4x表示粮食产量、GDP、出生率、死亡率。
y表示总人口。
1.2 样本确定通过查阅中国政府网,得到了1980年到2014年各因素的数据。
表1-1 样本数据1.3 一元回归分析定义1.1 回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
1.3.1 绘制总人口与粮食产量的散点图图1-1 粮食产量与总人口散点图1.3.2 设定理论模型根据图1-1随着粮食产量的增加,总人口的数量增加,且各样本点大致落在一条直线附近,故可以采用公式:01y x ββε=++ (1-1) 一元线性回归理论模型,对数据进行一元回归分析。
1.3.3 回归诊断根据表1-1模型摘要表可以看到,0.909r =,说明以粮食产量为唯一因变量与总人口的拟合程度很高。
根据表1-2系数表,将系数带入公式(1-1)可得出回归模型公式:用一元回归模型对2014年的总人口进行预测,的到的预测值ˆ142165.8355y第2章多元线性回归定义2.1在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。
2.1 数据中心化标准化数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
图2-1 标准化结果2.2 多元回归模型建立多元回归模型公式:对数据进行多元回归分析,结果如图2.2粮食产量(万吨)1.045 .152 .647 6.893 .000 GDP(亿元)-.005 .008 -.078 -.635 .531 出生率(%)-1460.798262.207 -.496 -5.571 .000死亡率(%)-4060.272 3649.70-.091 -1.112 .275a. 應變數\: 人口(万人)根据表2-1可知R=0.972,拟合度高,所以能用该模型进行预测,同时模型的检验P值sig<0.05,说明该模型显著可信;根据表2-3得到多远线性回归方程: 同时,根据方程得到14年总人口预测值ˆ138182.2403y=,与真实值相差1400.25403e=.2.3 逐步回归法定义2.2 逐步回归法:逐步回归的基本思想是有进有出。