当前位置:文档之家› 交通数据挖掘研究

交通数据挖掘研究

交通事故因素分析与预防

[摘要]

城市的不断发展已经导致城市交通事故的频繁发生,能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。本文提出一种使用数据挖掘领域中的多维关联规则技术和概率统计学中的多元线性回归模型分析大量交通事故记录的方法,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并得出直观的参数函数,使得交通管理人员或城市规划者能在交通管理中方便地运用这些函数,不但可以对交通事故的产生做定量性的分析,还可以采取相应的有效措施。

[关键字] 数据挖掘、多维关联规则、多元线性回归、交通事故

The Analysis and Prevent In Traffic Accidents

[Abstract]

The development of the city has led to the frequent occurrence of traffic accidents.

Whether we can analyze those accidents correctly in the past will directly determine the

avoidance of future ones of the similar kind. In this paper, we introduce a method,

including multidimensional association rule in the field of data mining and multiple

regression, helps analyze the large amounts of traffic accident records. With this method,

we are able to find out the underlying rules in traffic accidents through searching the

combination of frequent factors that probably lead to traffic accidents and get a function

about them. In addition, armed with the function, people will be able to take effective

actions to prohibit the anticipated accidents in real world.

[Key Words] Data Mining; Multidimensional Association Rule; Multiple Regression; Traffic

Accident

[引言]

城市的不断发展已经导致城市交通问题日益突出,交通事故频繁发生,而能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。目前的分析方法大多是使用数据挖掘领域中的关联规则技术分析大量交通事故的记录,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,所得到的结果都是一组规则集合{Ai=>Bi(support,confidence),i=1,2,3„„},通过这组规则我们能得知什么样的条件对交通事故的发生起多大的影响,但这并不足以起到预防的作用。一些既成的条件只能让我们对一些事故多发地带提高警惕,而无法从根源上降低事故发生率,避免经济损失。只有消除对事故发生起影响的条件,既在城市规划和道路交通设计时就避免产生那些条件,这样才能真正起到预防作用。而前面的那些规则在这方面运用并不方便,难以运用于实际工作中,无法提供有效的建议,从而降低交通事故的发生率。而本文在借助数据挖掘领域中的多维关联规则技术对交通事故记录进行分析的同时,又对分析结果使用多元线性回归模型进行处理,从而得到较为直观的参数函数,其使用方便,能有效广泛地运用在实际工作中,为城市规划和道路交通设计提供合理的建议,从根源上消除交通隐患,减少交通事故,挽回经济损失。

[基本思路] 交通事故原始数据数据清理标准数据模型21-D方体和频繁21-谓词集Apriori算法的变形多维关联规则通过置信度、支持度产生多维关联规则以属性为参数的函数线性回归

[建立模型]

方法中的数据模型是根据公安部目前使用的道路交通事故信息采集项目表建立的,除去一些多余信息,总结出了下述关键属性进行分析:

A0 事故类型:轻微刮擦(A01)、人员受伤(A02)、人员死亡(A03)

A1 天气:雨、雪、雾、晴、大风、阴、沙尘、冰雹、其他

A2 照明条件:白天、夜间有路灯照明、夜间无路灯照明

A3 能见度:50米以内、50-100米、100-200米、200米以上

A4 地形:平原、丘陵、山区

A5 在道路横断面位置:机动车道、非机动车道、机非混合道、人行道、人行横道、紧急停车带、其他

A6 路表情况:干燥、潮湿、积水、漫水、冰雪、泥泞、其他

A7 路面情况:路面完好、施工、凹凸、塌陷、路障、其他

A8 道路类型:高速公路、一级公路、二级公路、三级公路、四级公路、等外公路、城市快速路、一般城市道路、单位小区自建路、公共停车场、公共广场、其他路

A9 公路行政等级:国道、省道、县道、乡道、其他

A10 路口路段类型:三枝分岔口、四枝分岔口、多枝分岔口、环形交叉口、匝道口、普通路段、高架路段、变窄路段、窄路、桥梁、隧道、路段进出处、路侧险要路段、其他特殊路段

A11 道路线形:平直、一般弯、一般坡、急弯、陡坡、连续下坡、一般弯坡、急弯陡坡、一般坡急弯、一般弯陡坡、

A12 道路物理隔离:无隔离、中心隔离、机非隔离、中心隔离加机非隔离

A13 路面结构:沥青、水泥、沙石、土路、其他

A14 路侧防护设施类型:波形防撞护栏、防撞墙、防撞墩、其他防护设施

A15 交通信号方式:无信号、民警指挥、信号灯、标志、标线、其他安全设施

A16 交通方式:大客车、小客车、(外籍客车)、大型货车、小型货车、(外籍货车)、汽车列车、三轮汽车、低速货车、其他汽车、摩托车、拖拉机、其他机动车、自行车、三轮车、残疾人专用车、畜力车、助力自行车、电动自行车、其他非机动车、手推车、步行、(乘汽车、乘摩托车、乘其他机动车、乘非机动车、)其他

A17 车辆合法状况:正常、未按期检验、非法改拼装、非法生产、报废

A18 车辆安全状况:正常、制动失效、制动不良、转向失效、照明与信号装置失效、爆胎、其他机械故障

A19 车辆行驶状态:直行、倒车、掉头、起步、停车、左转弯、右转弯、变更车道、躲避障碍、静止、超车、其他

A20 车辆使用性质:公路客运、公交客运、出租客运、旅游客运、一般货运、危险品货运、租赁、其他营运、警用、消防、救护、工程救险车、党政机关用车、企事业单位用车、施工作业车、校车、私用、其他非营运

[多维关联规则]

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代方法,使用频繁k-项集(集合中含有k项,并且这k项的组合出现的频率高于预先给定概率值)去寻找频繁(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1,L1用于找出频繁2-项集的集合L2,而L2用于找出L3,如此下去,直到不能找到LK,即频繁k-项集。

由于模型中的属性有多个,所以我们不能简单地使用Apriori算法进行分析,而要对其进行修改,从而能在多维数据中找到所有的频繁k-谓词集,而不是频繁k-项集。

这在里我们要用到数据立方体这个数据结构,它是由方体的格组成,方体是多维数据结构,它用于存放对应n-谓词集的计数。

( )(A0)(A1)(An)(A0,A1)(A0,A1)0-D(顶点)方体1-D方体2-D方体„„„„„„„„(A0,„,An)„„n-D方体 首先,构造0-D方体:它只有一个格,记录着记录总数;

然后,构造1-D方体:它只有一个维度,每个格记录的为当前属性取相应值的记录数。构造完全部1-D方体后,我们要对除1-D方体(A0)外的其它1-D方体进行处理,既根据其记录数的多少对相应属性所取的值进行从小到大排序,分别记为Ai1,Ai2,„„,Aik。例如:

取值1取值2属性Ai取值3„„取值kL1L2L3„„Lk记录数L3

因为我们所要找的规则是A=>A0,而1-D方体中,除1-D方体(A0)外,均不包含谓词A0,故将其均视为频繁1-谓词集,不进行过滤。

接着,构造2-D方体:我们的目的是找到类似为A=>A0,的规则,所以构造出来的方休必须包含属性A0,否则通过它得出的规则也是我们不感兴趣的。故此在构造2-D方体时,我们可以做一些特殊的处理,既只将1-D方体(A0)与其它1-D方体连接处理,而不将其它方体两两连接处理,这样既减少了工作量,又不置于丢失有用的信息。对1-D方体(A0)和1-D方体(A1)的具体方法如下:因为有两个属性,连接后生成的将是一个二维表格,如下:

A01A02A03A11L01,11L02,11L03,11A12L01,12L02,12L03,12属性A0属性A1„„„„„„„„A1kL01,1kL02,1kL03,1k

可以采用多维数组的形式表现:

[A01,A11]= L01,11 [A02,A11]= L02,11 [A03,A11]= L03,11

[A01,A12]= L01,12 [A02,A12]= L02,12 [A03,A12]= L03,12

„„ „„ „„

[A01,A1k]= L01,1k [A02,A1k]= L02,1k [A03,A1k]= L03,1k

根据给定的“支持度L”和1-D方体找出频繁2-谓词集。若[A0i,Ajm]

接下去则根据k-1-D方体连接生成k-D方体:两个k-1-D方体可以连接当且仅当它们只有一个不相同的属性,既k-1-D方体(A0,Ai1,„„,Aik-3,Aik-2)与k-1-D方体(A0,Aj1,„„,Ajk-3,Ajk-2)可连接当且仅当Ai1= Aj1,„„,Aik-3= Ajk-3,Aik-2≠Ajk-2。然后根据所生成的k-D方体找出频繁k-谓词集。

最后可以得到21-D方体和频繁21-谓词集。形式如下:

[A01,A1i,„,A20,j]= L01,1i,„,20,j „„ [A03,A1i,„,A20,j]= L03,1i,„„,20,j

„„ „„ „„

[A01,A1i’,„,A20,j’]= L01,1i’,„,20,,j’ „„ [A03,A1i’,„,A20,j’]= L03,1i’,„„,20,j’

根据频繁21-谓词集可得下列一组规则:

A1(A1,i1)∧„„∧A21(A21,i21) =>A0(A0,i0) =

相关主题