高考录取分数预测模型姓名: 班级:姓名: 班级:姓名: 班级:关于高考录取分数预测模型的探究摘要本文通过差分指数平滑法和自适应过滤法分别建立模型,根据历年学校录取线预测下一年的录取分数线。
最后,根据预测出来的最佳数据,给2014年报考本校的考生做出合理的建议。
对于问题一和问题二,首先根据题意和所给出的学校历年的录取分数线,不难分析出高校的录取分数线是由当年的题目难度、考生报考数量、“大年”和“小年”等因素决定的。
每年的分数线还是有一定差距的,例如,本校2012在北京市电气专业的录取线是428分,而2013年是488分,相差60分。
因此,预测的时候,需要通过一些方法使数据趋于平滑,使之便于预测。
通过这些分析,建立了两种可靠的预测模型。
模型一通过差分的方法,利用Matlab软件将后一年Y t与前一年Y t-1的数据相减得到一个差分值,构成一个新序列。
将新序列的值与实际值依次迭加,作为下一期的预测值。
以此类推,预测出2014年的录取分数线。
模型二是根据一组给定的权数w对历年的数据进行加权平均计算一个预测值y,然后根据预测误差调整权数以减少误差,这样反复进行直至找到一组最佳权数,使误差减小到最低限度,再利用最佳权数进行加权平均预测。
这两种方法很好的解决了历年录取分数相差较大难以预测的问题。
预测值相对准确。
预测结果数据量较大,在此以河北省为例,给出预测结果模型一:2014年本校电气专业录取线为495,模型二:2014年本校电气专业录取线为536。
最后,通过预测出的数据,比对模型一和模型二,取最佳预测值,给报考科技学院的考生做出较为合理的建议。
关键词:序列权数差分值加权平均高考录取线一问题的重述对广大高考考生来说,填报志愿和高考一样都是人生中最重要的一步。
那张薄薄的志愿表和高考分数一样,很大程度上影响到考生的未来和前途。
填报志愿科学、合理,就能够被与自己考分相对应的理想高校录取;如果志愿选择不当,找不准与自己考分相对应的高校,即使考出高分,也可能与重点大学擦肩而过或高分低就,甚至落榜,留下终身的遗憾,这样的实例举不胜举,因此有人说,高考成功与否,60%靠实力,40%靠志愿。
那么有没有一种行之有效的方法来准确预测高校的录取分数,从而根据自己的分数准确选择目标高校呢?1.请设计预测高校的录取分数的方法。
2.结合科技学院近些年各专业在各省的录取分数线,预测一下科技学院2014年各专业在各省的录取分数线。
3.给计划报考科技学院的考生一些建议。
二问题的分析问题一是问题二的前提,通过设计好的预测方法,来预测科技学院2014年各专业在各省的录取分数线。
最后结合总体的预测数据,来解决第三个问题。
因此,设计准确的预测方法是解决问题的关键。
首先,通过建立数学模型研究本校在各省的最低录取分数线,预测出本校2014年在各省的最低录取线。
得出预测方法。
然后导入科技学院前8年的在各省各专业的录取分数线,通过建立好的数学模型,运用得出的预测方法预测出本校2014年各专业在各省的录取分数线。
最后通过模型一和模型二的预测结果,将前7年的预测值和实际值进行比较,可以得出最佳的预测值,以此为依据,给2014年将要报考本校的考生做出建议。
三模型的假设1、为计算方便,将学校没有招生的省份和专业的数据设为空;2、历年考生数量和素质水平无较大波动;3、时间序列的变动大概呈现直线趋势;4、2008年四川地区录取线全部按非延考计算;5、数据不足,工商管理专业不在预测范围内。
四符号说明Y t t年的信息存储矩阵▽y t y t与y t-1之差▽Ŷt+Y t+1与Y t之差的预测值1Ŷt+1第t+1年的预测值α加权系数w i第t-i+1期的观测值权数N权数个数n 样本个数w i’调整后的第t-i+1期的观测值k学习常数e t+1第t+1期的预测误差X0给定的值σ2总体方差S y2总体方差的无偏估计量X i第i年五模型的建立与求解5.1模型一的建立与求解注:华电科院各年录取分数线见附表5.1.1信息存储矩阵设计设计高校录取分数线方法,建立差分指数平滑法数学模型。
在预测之前,进行信息存储矩阵设计。
下面是设计的矩阵Y t =专业省专业省专业省专业省专业省专业省专业省专业省专业省333222111z y x z y x z y x ... 其中t 为年份,行指标为各省同一专业的录取线,列指标是同一省份各个专业的录取分数线。
5.1.2差分指数平滑法差分指数平滑法模型是从数据变换的额角度考虑,即先对数据作处理,使之适用于一次指数平滑模型,之后再对输出的结果作处理,使之恢复为原变量的形态,利用以下的计算公式:t t t t t t t t t Y +Y ∇=Y Y ∇-+Y ∇=Y∇Y -Y =Y ∇+++-1111ˆˆ)3(ˆ)1(ˆ)2()1(αα▽为差分符号,(1)式表示对序列作一阶差分,构成一个平稳的新序列,(3)表示把经过一阶差分后的新序列的指数平滑预测值与变量当前的实际值迭加,作为变量下一期的预测值。
由于计算量较大,我们编写了Matlab 程序来计算▽Ŷt 、▽Ŷt+1、Ŷt+1。
为近一步说明指数平滑的实质,把式(2)依次展开,有1210)1(])1()[1()4(---∑∞=-==-+-+=t t t t yY a y y Y jj t ααααα ,(4)式表明Y t 是全部历史数据的加权平均,加权系数分别为α,α(1−α),α(1−α)2 显然有 (5)1)1(1)1(0=--=-∑∞=ααααj j由于加权系数符合指数规律,又具有平滑数据功能,所以称为指数平滑。
5.1.3加权系数的选择在进行指数平滑时,加权系数选择很重要,由式(4)和(5)可以看出,α的大小规定了在新预测值中新数据和原预测值所占的比重,α值越大,新数据所占的比重就愈大,原预测值所占的比重就愈小,反之亦然,若把式(4)改写为(6))(1∧∧∧-+=+t t t t y y y y α 则从上式可以看出,新预测值是根据预测误差对原预测值进行修正而得到的。
α的大小则体现了修正的幅度,α值愈大,修正值幅度愈大,α值愈小,修正幅度也愈小。
若选取α=0,则t t y y ∧∧=+1,即下期预测值就等于本期预测值,在预测过程中不考虑任何新信息;若选取α=1,t t y y =+∧1,即下期预测值就等于本期实际值,完全不相信过去的信息。
这种极端情况很难做出正确的预测。
因此,α值应根据时间序列的具体性质在0~1之间选择。
在本文中α=0.5。
初始值本文选择2007年数据的实际值。
下面是利用模型一所得出的2008年到2013年的预测值和实际值的对比图图一通过图一可以看出,凡是历年各专业均有招生的地区,预测的结果较为全面而且准确。
例如河北省、山西省等地。
而某些年份没有录取的地区,或者只有少数专业录取的地区,预测的结果准确性稍有下降,有的甚至没有预测结果。
例如内蒙古、西藏等地。
5.2模型二的建立与求解5.2.1自适应过滤法的基本过程自适应过滤法与移动平均法、指数平滑法一样,也是以时间序列的历史观测值进行某种加权平均来预测的,它要寻找一组“最佳”的权数,其办法是先用一组给定的权数来计算一个预测值,然后计算预测误差,再根据预测误差调整权数以减少误差。
这样反复进行,直至找出一组“最佳”权数,使误差减少到最低限度。
由于这种调整权数的过程与通讯工程中的传输噪声过滤过程极为接近,故称为自适应过滤法。
自适应过滤法的基本公式∑=∧+-+--+=+++=N i i t i N t N t t t y w y w y w y w y 1111211)7( 式(7)中,1+∧t y 为第t+1期的预测值,w i 为第t-i+1期的观测值权数,y t-i+1为t-i+12 23 1 1 w 2 期的观测值,N 为权数的个数。
其调整权数的公式为11'2)8(+-++=i t i i i y ke w w式(8)中,i =1,2 ,N ,t =N ,N +1, n ,n 为序列数据个数,w i 为调整前的第i 个权数,w i ’为调整后的第i 个权数,k 为学习常数,e i+1为第t +1期的预测误差。
式(8)表明:调整后的一组权数应等于旧的一组权数加上误差调整项,这个调整项包括预测误差、院观测值和学习常数等三个因素。
学习常数k 的大小决定权数调整的速度。
下面举一个简单的例子来说明此法的全过程。
设有一个时间序列包括 10 个观测值,如表 9 所示。
试用自适应滤波法,以两个权数来求第 11 期的预测值。
本例中 N = 2 。
取初始权数 w 1 = 0.5 ,w 2 = 0.5 ,并设 k = 0.9 。
t 的取值由 N = 2开始,当 t = 2 时: (1)按预测公式(7),求第 t + 1 = 3 期的预测值。
yˆt +1 = y ˆ3 = w 1 y 2 + w 2 y 1 = 0.15 (2)计算预测误差。
e t +1 = e 3 = y 3 − yˆ3 = 0.3 − 0.15 = 0.15 (3)根据式(8),w 1 = w 1 + 2ke 3 y 2 = 0.554 w ' = w + 2ke y = 0.527 (1)~(3)结束,即完成了一次权数调整,然后 t 进 1 再重复以前步骤。
当t = 3时:(1)利用所得到的权数,计算第 t + 1 = 4 期的预测值。
方法是,舍去最的一个观测值 y 1 ,增加一个新的观测值 y 3 。
即 ' ' y ˆt +1 = y ˆ 4 = w 1 y 3 + w 2 y 2 = 0.2716(2)计算预测误差e t +1 = e 4 = y 4 − yˆ 4 = 0.13 (3)调整权数 w ' = 0.554 + 2 × 0.9 × 0.13 × 0.3 = 0.624 ' = 0.527 + 2 × 0.9 × 0.13 × 0.2 = 0.564这样进行到 t = 10 时 ' ' y ˆt +1 = y ˆ11 = w 1 y 10 + w 2 y 9但由于没有t=11的观测值y 11,因此e t +1 = e 11 = y 11 − 11∧y无法计算。
这时,第一轮的调整就此结束。
把现有的新权数作为初始权数,重新开始 t = 2的过程。
这样反复进行下去,到预测误差(指新一轮的预测总误差)没有明显改进时,就认为获得了一个“最佳”权数,能实际用来预测第11期的数值。
在实际应用中,权数调整计算工作量可能很大,必须借助于计算机才能实现。
下面试通过模型二预测出的结果,由于预测数据量大,在此给出几组有代表性的地区的预测结果。