短期交通流量预测
摘要
交通流量是一种对于一段时间内在某个路口内通过的交通实体量,在现在的社会中,智能运输系统等交通理论的研究已经渐渐成为发达国家的研究对象,而交通流量预测分析是其中的核心研究之一。所以,对于交通流量的预测成为叩开智能交通系统大门的最有力的那一把钥匙。
在前面,我们首先面临的一个问题是对于数据的处理。题目以15分钟为一个时间段来测量交通流量,一共有三天的数据,应该有288个数据,但是题目只给出了276个。另外,在数据中还有两个为负的数据。面对缺失数据和异常数据,我们分别使用了热卡插补法和平均值填补法来解决。
然后在进行预测时,我们分别使用了不同的软件来建立不同的预测模型。首先我们使用了灰色预测GM软件来进行灰色模型的预测,在预测前,我们先用模型和前两天的交通流量来预测第三天的交通流量,然后将第三天的真实交通流量与预测交通流量进行相关性检验,检验通过后,再用于预测第四天的交通流量,最后评价模型的好坏。
接着,我们使用了spss软件来进行回归分析模型的预测。在预测之前,我们需要先对数据进行相关性检验,若没有相关性,则回归方程会没有意义。接下来,通过对回归方法的决定性系数检验和方差分析检验,得到最合适方法。之后再进行第四天的预测及预测结果的评价。
然后,我们使用了metlab软件来实现BP神经网络模型的预测。BP神经网络的实质是用已给出的数据来推出需要的数据,并将新预测出的数据重新返回输入中,得到误差,一直重复,直到误差到达合理的范围内。在预测之前,我们先得出了误差在合理范围,并且看到已给出数据的真实值与预测值得对比。在确保模型是可用的之后,在进行预测与预测结果的评价。
最后,我们使用了eview软件来进行时间序列的预测。时间序列预测要求数据必须是平稳的,所以在预测前,先要对数据进行ADF检验,在检验通过后,才能进行预测,得到预测后的表达式和残差。在最后,还必须对残差进行分析估计。这样之后,对模型进行评价。
在本文的最后,我们进行了进一步的讨论和改进,对四种预测方法进行了一个比较,判断出那个模型是最适合这个题目的。并且对文章中所涉及的模型进行推广,使其更便于运用于生活实际中。
关键词:eviews 热卡插补法 相关性检验 神经网络 时间序列 ADF检验
1 问题重述
1.1 问题背景
交通流量指的是在一段时间内通过道路某一地点、某一断面或某一车道的交通实体数。随着交通基础设置建设和智能运输系统的发展,交通规划和交通诱导已成为交通领域研究的热点。对于交通规划和交通诱导来说,准确的交通流量预测是其实现的前提和关键。
交通流量预测根据时间跨度可分为长期交通流量预测和短期交通流量预测,长期交通流量预测以小时、天、月甚至年为时间单位,是宏观意义上的预测;短期交通流量预测一般的时间跨度不超过15分钟,是微观意义上的预测。短期交通流量预测是智能运输系统的核心内容和实现其智能化功能的基础平台。短期交通流量预测具有高度非线性和不确定性等特点,并且同时间相关性较强,研究表明,城市交通路网中交通路段上某时刻的交通流量与本路段前几个时段的交通流量有关,并且交通流量具有24小时内准周期的特征。
1.2 问题研究 现有3天的交通流量数据,假设从第1天0时15分开始,每隔15分钟记录一次该段时间内的交通流量,预测出第4天的交通流量,并指出模型的优缺点。
2 问题分析
题目要求我们根据已给出的三天的数据来预测第四天的交通流量,并且评价判断模型的优缺点。
首先,题目给出的是三天的数据,以15分钟为一个截点,应该有3*24*4个数据,但实际只有266个数据。另外,在数据中有负数的情况,按照该题的实际情况而言,不可能出现为负的情况,交通流量不可能为负。所以,首先要对缺失数据进行处理,我们使用了单一插值法中的热卡插补法来补齐缺失数据和异常数据。
然后我们需要进行预测第四天的数据,在这里我们只需要进行短期的交通流量预测。在短期预测中,我们以原始的15分钟为一个时段,预测未来一天的交通流量。在这里我们一共运用了四种预测方法,分别是灰色预测模型,回归分析预测方法,时间序列和神经元网络,
最后,通过对每种方法预测结果的分析与判断,总结出每种方法的优点和缺点。
3 符号说明
符号 含义说明
第一二三天中,不同时间点的交通流量
i 一天中,以15分钟为时间段的时间序列编号
权值
时间数列
交通流量数列
时间的平均值
交通流量的平均值 4 模型假设
1 假设题目所给的所有数据都是真实有效的。
2 假设在这四天中并没有特殊的会聚集人群的事件发生。
3 假设测量的误差小,对结论的影响程度低,甚至没有影响。
4 假设灰色模型、MATLAB、SPSS软件、EViews软件选取的预测模型都是最好的。
5 假设测量交通流量时,把测量路段的所有车辆看作一个点。
6 假设随机选取检验的的数据,对结论没有影响。
5 模型建立与求解
这道题目是一道关于交通流量的研究的问题,我们以某三天内的每15分钟一个时段的交通流量为基础,在以15分钟时间段为时间窗宽的情况下,构建不同的预测模型,对第四天做出了预测,验证了模型的可行性,最后通过对模型结果的分析,评价模型的好与坏。
模型数据的处理
问题中要求我们根据前三天的数据预测出第四天的数据,前三天的数据应该有288个,但是实际给出的数据只有276个,且给出的数据中还存在有两个为负数的数据,在题目的现实意义中,交通流量根本不可能为负数。所以据判断,这组数据中存在着缺失值和异常数据,如何处理数据是一个重要的点。
Step1 缺失数据的处理
首先对于缺失数据来说,我们并不知道缺失的数据是随机缺失数据还是非随机缺失数据,所以我们先将数据点作图,观察曲线的趋势,折线图一如下:
图一
从图中可以明显看出,这组数据有明显的周期性,所以可以大胆判断缺失的12个数据为第三天的21点到24点的数据。
对此,我们选择了热卡插补法进行缺失值的填补,所谓热卡插补法(Hot deck
imputation),即对于一个包含缺失值的对象,在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填补。在这里,我们用与缺失值最相似的前两天同一时段的数据的平均值来代替缺失值。用替换掉缺失值的数据画折线图得到图二:
图二
Step2 异常数据的处理
对于数据中两个为负的异常数据,由于所占比例较小,只有%左右,而直接去掉会影响数据分析的准确性,所以我们直接用平均值填充法(Mean/Mode
Completer)来进行,用异常数据的前后两个数据的平均值来代替异常数据,得到完整数据。
数据的预测
在这里,有几种不同预测方法可以这样使用,我们将一一进行预测并进行评价,得到最合适的模型。
灰色模型的建立求解与评价
首先,我们运用了灰色预测模型,灰色模型是一种对含有不确定因素的系统进行预测的方法,灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。
Step1 灰色模型的检验
如果要得到检验结果,必须要先检验使用模型的可行性,检查误差是否在合理范围。为此,我们先随机抽取每一天的20个时间点,用前两天的这20个数据来预测第三天的这20个时间点的交通流量。然后用这20个时间点的真实值和预测值作误差检验。检验结果为下图:
相关性
真实值 预测值
真实值 Pearson 相关性 1 .785**
显著性(双侧) .000
N 20 20
预测值 Pearson 相关性 .885** 1
显著性(双侧) .000
N 20 20
**. 在 .01 水平(双侧)上显著相关。
通过图表可以看出,真实值与预测值的相关系数为,说明这两组数据之间的相关性相对比较高,表明这个灰色模型是不错的,可以用于第四天的预测。
Step2 灰色模型的预测
灰色系统理论认为,尽管客观表象复杂,但总是有整体功能的,因此必然蕴含某种内在规律。关键在于如何选择适当的方式去挖掘和利用它。灰色系统是通过对原始数据的整理来寻求其变化规律的,这是一种就数据寻求数据的现实规律的途径,即为灰色序列的生成。一切灰色序列都能通过某种生成弱化其随机性,显现其规律性。数据生成的常用方式有累加生成、累减生成和加权累加生成。
在这里我们使用的是加权累加生成,将第一天,第二天和第三天的权值分别设为1/3,将一天中每个时间点对应的三个数据设为(i=1,2,3….95,96)
称的邻值。当权值都为1/3时,则生成数为
在实际操作中,可以有现成的灰色预测软件进行计算。以15分钟为一个时间点,将三天中每个相对应的时间点的交通流量作为样本量,代入于灰色预测模型中,得到96个预测值。在预测过程,由于第一天早上六点时的一个异常数据,导致预测值出现异常数值,所以我们使用之前处理异常数据的方法处理了这个数据,重新进行了预测。
将预测出来的第四天的交通流量和前三天的交通流量并在一起,画出折线图三,如下:
图三
Step3 灰色模型的评价
一 优点
1、数据量量较少,易于计算
2、样本不需要有规律性分布,对于有周期性的不需要去趋势。
3 准确度相对较高。
二 缺点
1 可以分析的数据量的范围狭窄,太少数据量和太多数据量的都不能分析预测,只适用于Recent、短期、中长期预测。
2 软件在计算后没有直接给出参数进行检验,必须自己另外进行检验分析,操作不方便。
回归分析预测的分析求解与评价
回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系,大多表现为相关关系。
在前面的图形中,我们已经发现了每一天的交通流量与时间有强烈的周期性,难以得出三天在一起时的整体趋势,所以我们在进行回归分析预测时只选取了一天为研究对象。并且,由于第三天与需要预测的第四天最接近,所以我们选择了第三天来进行分析预测。
Step1 回归分析预测的相关性分析
回归分析是对具有因果关系的影响因素和预测对象所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。所以,我们必须要先判断作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及这种相关程度的把握性多大,在这里,我们用相关关系的大小来判断自变量和因变量的相关的程度。
将自变量时间设为,因变量交通流量设为,在这里我们运用R系数来计算两者之间的相关性系数:
表示时间与交通流量的平均数
在软件中我们通过计算得到以下结果:
相关性
时间 交通流量
时间 Pearson 相关性 1 .606**