中国铁路客运量的时间序列分析辜予薇1303050225统计0502摘要首先,本文对中国铁路客运的现状及影响客运量的因素作了简要的分析,并说明了运用时间序列分析方法对中国铁路客运量作预测的现实意义。
接下来,文中收集到了从2002年1月至2008年10月中国铁路客运量的数据,经过一系列分析,对野值进行了相应的替换,并通过平稳化和零均值化将原序列转化为适宜建立时间序列模型的新序列X。
然后,本文用Box-Jekins方法对序列X进行初步识别,拟合出基本模型,并使用F检验定阶法和最佳准则函数定阶法确定模型的阶数,建立了AR(1)模型。
其后,本文还使用Pandit-Wu方法建立起了ARMA(4,3)模型,并将此模型与之前的AR(1)模型作了简单的对比。
在模型建立后,本文分别用两个模型进行了内插和外推预测,比较了它们的预测误差,最后肯定了ARMA(4,3)模型的优越性,并对预测结果进行了简单的分析,提出了自己的建议。
关键词平稳化 Box-Jekins F检验最佳准则函数 Pandit-Wu 预测1引言铁路由于具有运距长、全天候、安全性强、运能大、受自然铁条件影响小的优点,在众多的交通工具中具有得天独厚的优势,无论在货运和客运上,都受到社会公众的亲睐。
[1]而铁路客运又是我国交通运输体系中与老百姓联系最紧密的运输方式,无论远赴他乡的学子,还是行色匆匆的打工仔,都于长长的列车有着不解之缘。
而我们知道,在高峰时期购票难的问题一直困扰着广大的出行者,现时值春运,国家和有关部门及时获取信息,有效地统筹安排铁道和列车资源就显得尤为重要。
我们认为,在众多的信息中,打算乘火车出行的人数是一个关键,它直接关系着有关部门需要开派多少车的问题。
如果车派少了,必然有部分的出行者由于无法买到车票而耽误行程,造成社会公众的不满;但另一方面,如果开派的列车数超过了实际需要,就会有过度“不满员”的情况,不仅加大了列车的运行成本,还造成了资源的浪费。
但由于有关部门也不可能精确地知道未来究竟有多少人打算乘火车出行,所以只有根据历史的规律结合当下的实际情况进行预测。
时间序列分析正是这样一种立足于历史,以预测和控制未来现象的方法,在处理这个问题上是有一定的可行性的。
2问题分析从理论上来讲,影响一个时期铁路客运量的因素有很多,我认为最重要的应该有下面几个:A:节假日分布。
一般来讲,节假日分布密集的时期的出行的人数会较一般时段有所增加,如春节前后主要是农民工和学生构成强大的客流,而“五一”和“十一”黄金周外出旅游的人也会大大增加铁路客运压力。
B:外部竞争因素。
这主要是指飞机和汽车等交通工具的票价高低。
如果某一时段飞机票价居高不下,而一些时间较充裕或购买力不够强的旅客则会选择乘火车出行;另一方面,一般短途旅客都偏好于乘坐汽车,因为较方便。
但如果此时的火车票价远低于汽车票价,使旅客感觉到乘坐火车的期望效用较高,便会舍弃汽车这种交通方式。
C:整个宏观经济环境。
虽然这不是一个关键的因素,但是也在很大程度上影响了客流量。
举例来说,在经济不景气的时期,各行各业会缩减其业务量,那么外出公干的人员自然会减少,而这一部份人也是构成客流量的因素,即铁路客流量也会较往常减少。
当然,还有很多的因素会影响铁路客流量,如个人偏好,天气状况等,但它们对铁路客运量的影响较之前的三个因素就较小,这里便不再作具体的分析。
而我们可以看到,因素A即节假日分布对客运量的影响相对稳定,也是具有一定周期性的。
对此,我们可以了解它的周期,并且建立ARMA模型对客运状况进行分析,对未来的客运量进行预测,解决我们在前面提到的问题。
3数据的收集为了增加分析的准确性,我们需要将数据的统计时期精准到月。
在中华人民共和国统计局网站[2]上,我们可以找到2002年1月至2008年10月的中国全社会客货运输量的月度报表,而其中就有一项就是铁路客运量。
经过整理,可以得到中国铁路客运量的月度时间序列数据(见附录1)。
4数据预处理4.1 数据的录入(1)创建Workfile:点击File/New/Workfile,输入起始年2002年,终止年2008年,并选择Frequency下拉菜单中的Monthly。
(2)建立object输入数据:点击object/new object,定义数据文件名Y并逐个录入数据。
4.2 画时序数据图:将序列Y(单位为亿人)1打开为列表,点击Workfile中的1以后无如特别说明,所有序列单位都为亿人View/line graph ,可以得到下面的图形图4.1 客运量的时间序列图观察上图,我们看到2003年5月的Y 值偏离其它点的距离较大,初步怀疑它为离群点。
下面计算Y 序列的均值和方差:图4.2 Y 序列的均值与方差从图4.2中可以得到0.98Y =,()0.19S Y ==,而2003年5月这个时点上的Y 值为0.33。
取k=3,则3Y Y S <-,故此点确为离群点。
所以,令112t t t Y Y Y ∧+-=-可以计算出这个时点上Y 的替代值为20.710.830.59⨯-=,更新数据并保代表会,便得到剔除野值的Y 序列(见附录2)。
接下来,再画出新时间序列Y 的时序图如下:图4.3 经处理过野值的客运量的时间序列图可以初步看出,铁路客运量的时间序列呈线性增长趋势,即非平稳的。
此外,这个序列还存在一定的周期性。
下面,我们定量地检验此序列地平稳性。
4.3 Unit Root Test :点击View/Unit Root Test ,可以得到以下的结果:表4.1 客运量序列单位根检验的结果Null Hypothesis: Y has a unit root Exogenous: ConstantLag Length: 8 (Automatic based on SIC, MAXLAG=11)t-Statistic Prob.*Augmented Dickey-Fuller test statistic 0.148421 0.9673Test critical values:1% level-3.5228875% level -2.90177910% level -2.588280*MacKinnon (1996) one-sided p-values.从上面的结果,我们可以看出:ADF_T=0.1484>-3.5228,则Y序列非平稳。
由于序列存在周期性,故我们用季节差分将其平稳化。
4.4 季节差分将序列平稳化:在Procs/Generate by Equation中输入X=Y-Y(-12),作一次季节差分(差分后序列X的具体数据见附录3)。
然后点击View/Desriptive Satistics/Histogram and stas,可得到X的均值为0.065143,已非常接近零,故可认为X为零均值序列。
再作ADF检验,可以得到以下的结果:表4.2 X序列的单位根检验结果Null Hypothesis: X has a unit rootExogenous: ConstantLag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -4.736238 0.0002Test critical values: 1% level -3.5285155% level -2.90419810% level -2.589562*MacKinnon (1996) one-sided p-values.从上面的结果,我们可以看出:ADF_T=-4.7362<-3.5285,则X序列已经是平稳序列。
可作出X序列的时间序列图如下:从上面的图上,我们也可以判断出此时的X序列是平稳的,可以在此基础上建立模型。
5Box-Jinkins识别模型求自相关系数和偏自相关系数,并画出图形:点击View/correlogram,可以得到以下结果:图5.1 X 序列的自相关和偏自相关图N=70,=8.37。
则当K>1时,2,23,3ϕϕϕ∧∧∧,,中满足||0.1195kk ϕ∧>== 的数量比例为2,不超过31.7%。
故可判断kk ϕ∧呈现1步截尾现象,而 k ρ∧序列被负指数函数控制收敛于零,呈拖尾现象,故可初步判定序列X 适合AR(1)模型。
6 F 检验定阶法和最佳准则函数定阶法6.1 不同阶数模型的拟合:点击Quick/Estimate equation 输入类似X AR(1) AR(2) AR(3)形式的各种不同模型。
首先,输入X AR(1) AR(2) AR(3),拟合AR(3)模型,得到下面的结果:表6.1 X序列的AR(3)模型拟合结果Dependent Variable: XMethod: Least SquaresDate: 12/24/08 Time: 01:12Sample (adjusted): 2003M04 2008M10Included observations: 67 after adjustmentsConvergence achieved after 3 iterationsVariable Coefficient Std. Error t-Statistic Prob.AR(1) 0.575401 0.124535 4.620398 0.0000AR(2) 0.028915 0.144250 0.200451 0.8418AR(3) 0.052077 0.124284 0.419017 0.6766R-squared 0.197830 Mean dependent var 0.066418Adjusted R-squared 0.172762 S.D. dependent var 0.123149S.E. of regression 0.112008 Akaike info criterion -1.496759Sum squared resid 0.802924 Schwarz criterion -1.398041Log likelihood 53.14141 Durbin-Watson stat 2.011555Inverted AR Roots .72 -.07+.26i -.07-.26i从上表可以看出,AR(2)和AR(3)的系数都很小,而且没有通过显著性检验,故而接着拟合AR(2)模型,得到下面的结果:表6.2 X序列的AR(2)模型拟合结果Dependent Variable: XMethod: Least SquaresDate: 12/24/08 Time: 01:18Sample (adjusted): 2003M03 2008M10Included observations: 68 after adjustmentsConvergence achieved after 3 iterationsVariable Coefficient Std. Error t-Statistic Prob.AR(1) 0.581491 0.122810 4.734875 0.0000AR(2) 0.051100 0.122702 0.416454 0.6784R-squared 0.200450 Mean dependent var 0.064853Adjusted R-squared 0.188335 S.D. dependent var 0.122906S.E. of regression 0.110729 Akaike info criterion -1.534487Sum squared resid 0.809224 Schwarz criterion -1.469208Log likelihood 54.17256 Durbin-Watson stat 2.006811Inverted AR Roots.66-.08从表6.2的结果也可以看出,AR(2)的系数也很小,也没有通过显著性检验,进而继续拟合AR(1)模型,得下面的结果:表6.3 X 序列的AR(1)模型拟合结果Dependent Variable: X Method: Least Squares Date: 12/24/08 Time: 01:22Sample (adjusted): 2003M02 2008M10 Included observations: 69 after adjustments Convergence achieved after 2 iterationsVariable Coefficient Std. Error t-Statistic Prob. AR(1)0.6087420.0955146.373346 0.0000R-squared 0.197447 Mean dependent var 0.064348 Adjusted R-squared 0.197447 S.D. dependent var 0.122071 S.E. of regression 0.109358 Akaike info criterion -1.573993 Sum squared resid 0.813224 Schwarz criterion -1.541614 Log likelihood 55.30275 Durbin-Watson stat 2.051691Inverted AR Roots.61此时,参数1ϕ就较为显著了。