统计预测和决策课程论文-------------------安徽省人口总数的预测学院:班级:学生姓名:指导教师:完成时间:目录摘要 (2)一绪论 (3)二数据来源 (3)三模型及预测方法的介绍 (3)四模型建立、求解及检验 (6)1.移动平均法预测 (6)2.指数平滑法预测 (7)3.一元线性回归预测 (7)五模型评价 (9)六参考文献 (11)摘要近几年来,就业问题一直是各严峻而艰巨的任务,关系到国家未来的前途命运,然而,导致这个问题难以解决的最主要原因便是应届毕业生的总数高居不下,甚至有上涨的趋势。
研究毕业生总数的变动趋势,有利于掌握未来几年的岗位需求,从而可以沉着应对。
本论文通过运用移动平均法、指数平滑法,一元线性回归方程等,拟合总数变动趋势等分析方法,通过建模求解我们可以预测到未来五年我国应届毕业生总人数的变动趋势[键词]:移动平均法;指数平滑法;线性回归;excel一、绪论由于毕业生就业情况和国家未来的前途命运紧密相关,现行中国推进全面深化改革,这各艰巨的任务理所当然的落在当代当学生发身上,所以,发展经济的前提便是是毕业生能够充分毕业,给他们用武之地。
二、数据来源从中国统计年鉴上得到的安徽省2000到2012年总人口数的数据,如下 (单位:万人)年份 总数2001 114 2002 145 2003 212 2004 280 2005 338 2006 413 2007 495 2008 559 2009 611 2010 631 2011 660 2012 680 2013 700 2014 727三、模型及预测方法的介绍 1.移动平均法:移动平均法是根据时间序列资料逐项推移,依次计算包含一定项数的时序平均数,以反映长期趋势的方法。
当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,来分析、预测序列的长期趋势。
移动平均法有简单的平均法、加权平均法和趋势移动平均法 (1)简单移动平均法设时间序列为:12t y y y ; 简单移动平均法的计算公式为:11t t t N t y y y M N--+++=,t N ≤式中:t M —t 期移动平均数 N — 移动平均项数 预测公式为:1t t M yΛ+=即以第t 期移动平均数作为第t+1期的预期值。
简单移动平均法只适合做近期预测,即只能对后续相邻的那一项进行预测。
它一般适用于预测对象的发展趋势变化不大的情形。
如果预测对象的发展趋势存在其他复杂的变化,采用简单移动平均法就会产生较大的预测偏差。
(2)加权移动平均法在简单移动平均法计算公式中,每期数据在求平均时的作用是等同的。
但是,实际上每期数据所包含的信息量是不一样的,近期数据包含着更多关于未来情况的信息。
因此,把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权平均法的基本思想。
加权移动平均法的计算公式为: 121112t t n t N tw Nw y w y w y M w w w --+++=++式中:tw M —t 期加权移动平均数i w —1t i y -+的权数预测公式:1tw t M yΛ+=即以第t 期加权移动平均数作为第t+1期的预期值。
利用加权移动平均法,可以更准确地反映实际情况。
但在加权移动平均法中,i w 的选择,同样具有一定的经验性。
一般的原则是:近期数据的权数大,远期数据的权数小。
至于大小到什么程度,完全靠预测者对序列进行的全面了解和分析而定。
2 指数平滑法:指数平滑法是在移动平均法基础上发展起来的一种时间序列分析预测法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。
其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。
指数平滑法保留了移动平均法的有点,也消除了移动平均法对存储数据量大和对最近的N 期数据等同看待,而对t-T 期以前的数据则完全不考虑这两个缺点。
它既不需要存储很多历史数据,又考虑了各期数据的重要性,而且使用了全部历史资料。
它是移动平均法的改进和发展,应用极为广泛。
指数平滑法根据平滑次数的不同,又分为一次指数平滑法、二次指数平滑法和三次指数平滑法。
本文只介绍一次指数平滑法,介绍如下:设时间序列为12,,t y y y ;一次指数平滑公式为:(1)(1)1(1)t t t S y S αα-=+-式中:(1)t S —一次指数平滑值;α—平滑系数,且01α<<。
预测模型为:1(1)t t t t y y y ααΛΛ+=+-也就是以第t 期指数平滑值作为t + 1期预期值。
在进行指数平滑时,加权系数的选择很重要。
α的大小规定了在新预测值中新数据和原预测值所占的比重。
α值越大,新数据所占的比重就愈大,原预测值所占的比重就愈小,反之则相反。
α值的选择一般遵循下列原则:a.如果时间序列波动不大,比较平稳,则α应取小一点,如0. 1 —0. 3,以减少修正幅度,使预测模型能包含较长时间序列的信息。
b.如果时间序列具有迅速且明显的变动倾向,则应α取大一点,如0.6—0.8使预测模型灵敏度高一些,以便迅速跟上数据的变化。
在实用时,类似于移动平均法,多取几个α值进行试算,看哪个预测误差较小,就采用哪个α值作为权重。
用一次指数平滑法进行预测,除了选择合适的α外,还要确定初始值(1)0S 初始值是由预测者估计或指定的。
当时间序列的数据较多,比如在20个以上时初始值对以后的预测值影响很少,可选用第一期数据为初始值。
如果时间序列的数据较少,在20个以下时,初始值对以后预测值影响很大,这时,就必须认真研究如何正确确定初始值。
一般以最初几期实际值的平均值作为初始值。
\ 3.一元线性回归回归分析是一种应用极为广泛的数量分析方法,是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
它用于分析事物之间的统计关系,侧重观察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,有助于人们准确的把握因变量与自变量之间的关系,进而为预测提供了科学依据。
回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
因为货运量往往受很多因素影响,处理这类经济问题单用一元线性回归模型是远远不够的,所以在此研究中,必须考虑多元的线性回归模型,多元线性回归模型跟一元线性回归模型类似,只不过在具体计算上较为复杂。
一元线性回归模型的数学模型为:01y x ββε=++(1) 拟合优度检验为了检验总的回归效果, 人们常引用无量纲指标复相关系数yyyy yy s Q s s U R -==2或yy s Q R -=1其中21)(∑=-∧-=ni i y y U ,21)(∑=∧-=ni i i y y QR 称为复相关系数。
很显然102≤≤R ,2R 越大说明回归方程与样本值拟合得越好,反之越差。
由于2R 与模型中的解释变量个数有关,即如果观测值x 不变,决定系数2R 将随解释变量的数目增大而增大,因而需对2R 进行调整。
调整后的决定系数,即修正后的11)1(122---⋅--=k n n R R ,其中k 为变量个数。
因此多元线性回归方程的的拟合优度检验采用修正的2R ,修正的2R 越接近1,说明回归方程对样本数据点的拟合优度越高,反之,修正的2R 越接近于0,说明回归方程据点的拟合优度越低。
(2)回归方程的显著性检验回归方程的显著性检验就是检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。
利用F 检验对回归方程进行显著性检验的方法称为方差分析。
检验统计量)1,(~)1/(/----=k n k F k n Q kU F ,对于给定的置信度α, 由F 分布表可查得)1,(--k n k F 的值, 如果根据统计量算得的F 值为)1,(-->k n k F F , 则拒绝原假设, 即k 个自变量的总体回归效果是显著的, 否则认为回归效果不显著。
(3)回归系数的显著性检验回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究每个解释变量能否有效地解释被解释变量的线性关化,它们能否保留在线性回归方程中。
四、模型的建立、求解及检验1.简单移动平均法根据数据波动情况及经验设定移动平均项数N=2,再根据预测公式11t t t N t y y y M N--+++=;t N ≤,1t t M yΛ+=求出简单移动平均法的预测值并计算其误差。
运用excel 软件对数据进行简单移动平均,得到预测值和误差如下: 年份 总数 移动平均 误差2001 1142002 145 157 -12 2003 212 212.3333 -0.33333 2004 280 276.6667 3.333333 2005 338 343.6667 -5.66667 2006 413 415.3333 -2.33333 2007 495 489 6 2008 559 555 4 2009 611 600.3333 10.66667 2010 631 634 -3 2011 660 657 3 2012 680 680 0 2013 700 702.3333 -2.33333 2014 7272、指数平滑法,取平滑系数a= 0.5、0.7,得到如下数据: 年份 总数 0.5 0.72001 114 2002 145 0 157 114 31 2003 212 78.5 133.8333 135.7 76.3 2004 280 145.4167 131.25 189.11 90.89 2005 338 211.0417 132.625 252.733 85.267 2006 413 277.3542 137.9792 312.4199 100.5801 2007 495 346.3438 142.6563 382.826 112.174 2008 559 417.6719 137.3281 461.3478 97.65221 2009 611 486.3359 113.9974 529.7043 81.29566 2010 631 543.3346 90.66536 586.6113 44.3887 2011 660 588.6673 68.33268 617.6834 42.31661 2012 680 622.8337 57.16634 647.305 32.69498 2013 700 651.4168 50.9165 670.1915 29.80849 2014 727 676.8751 -676.875 691.0575 35.94255 误差和 676.8751 860.3103其中1(1)t t t t y y y ααΛΛ+=+-故可以看出当a 取0.7时,预测数据更接近原始数据 三、一元线性回归1、对2001—2014年毕业生总数数据做时序散点图,如图1所示。