当前位置:文档之家› 中国统计1608-大数据分析中轨迹数据挖掘的现状与挑战.pdf

中国统计1608-大数据分析中轨迹数据挖掘的现状与挑战.pdf

谢邦昌 斯介生气的变化、PM2.5散布的途径等数据都与时间及其路径息息相关。

凡走过必留下痕迹,也就是轨迹(trajectory)。

积累的数据就是轨迹数据(Trajectory Data) 。

因此轨迹数据就是时空情境下,通过对一个或多个移动物体运动过程的数据搜集,所获得的数据信息。

包括搜集有先后顺序的位置、时间、速度及散布情形等。

例如具有GPS定位功能的智能手机,移动互联网络可以通过无线信号定位手机所在位置,进而搜集记录序列相关数据。

RFID(无限射频技术),对物体进行标记定位和位置数据记录,形成物体的移动轨迹。

随着交通工具、卫星、无线网络,以及相关定位设备的发展,巨量移动目标物的轨迹数据急速增长并有大量积累的趋势。

如天气变化的数据、环境迁徙的数据、交通轨迹数据、动物迁徙数据、人口变迁数据、植物分布数据等,都是轨迹数据的最好呈现。

对轨迹数据进行数据挖掘,是大数据分析中不可或缺的一环,因为这个领域积累数据的速度太快,积累的数据量也太庞大了。

|轨迹数据挖掘的现状伴随着轨迹数据的快速积累,面对如此庞大的数据量,并且无时不刻快速增长的数据集,人们需要思考如何对这些数据进行分析,挖掘其中蕴藏的丰富知识。

轨迹数据挖掘方法由此诞生。

近年来,轨迹数据挖掘的相关方法发展很快,在各领域都有了广泛的应用。

按照分析方法的不同,目前主要可分为三大方向:轨迹数据模式的挖掘、轨中国统计CHINA STATISTICS迹数据分类、轨迹的异常侦测。

下面对这些方法的思想和现状进行阐述。

1.轨迹数据模式的挖掘。

对于数据的模式挖掘是数据挖掘的重要组成部分,当数据是轨迹数据时,对应的模式挖掘方式有其特殊性。

这是因为,对于轨迹数据而言,无论从时间角度,还是空间角度看,都是一个整体,前后存在密切的相关性。

如果将每个数据点都割裂开分析,就会损失大量信息。

因此,通常的模式挖掘方法对于轨迹数据是不适用的。

目前,关于轨迹数据模式挖掘方法主要有四类:共同运动模式的挖掘、轨迹聚类、轨迹序贯模式的挖掘、轨迹周期模式的挖掘。

这四类挖掘方法构成了当前轨迹模式挖掘的主体。

(1)共同运动模式的挖掘,就是在一定的时间段内,针对一群移动对象的共同运动规律的研究。

例如,一组对象运动模式的分布规律、数量规律,一种模式持续的时间规律等。

这类研究可以在物种的迁徙,军事监视,交通监测等方面已经有了成功的应用。

我国的“春运”就是典型的在一定的时间段内,人类大规模共同运动的现象。

百度迁徙正是针对这种大规模共同运动模式进行大数据挖掘的成功案例。

(2)轨迹聚类,就是针对轨迹数据的聚类分析。

它与共同运动模式的挖掘有类似的地方,但是轨迹聚类的侧重点不一样,是针对不同的移动对象,共同的运动趋势和代表性的路径进行研究。

例如,在船舶的AIS 数据分析中,研究者面对的数据是由许多不同类型船舶航迹组成的。

在指定的海区,这些不同类型船舶航行的共同趋势和代表性路径是研究者们关心的问题。

轨迹聚类方法可以回答这类问题。

类似的应用在交通、生物等领域都大量存在。

(3)轨迹序贯模式的挖掘,是指针对一些不同的移动对象,在相近的时间段内,先后经过的共同的位置规律的研究。

例如,假设A 和B 是两个移动对象,它们的运行路径为1.5小时 1小时 1.2小时A:l 1——→l 2——→l 3——→l 4 ,1.5小时 2小时 B:l 1——→l 2——→l 4此时,l 1→l 2→l 4就是A 和B 共同的序贯模式,A 和B 经过这三个位置的先后顺序相同,时间段类似。

目前,这类方法已经在旅游路线推荐,位置预测等许多方面有了应用。

百度旅游对于旅行路线的推荐,实际上大量采用了序贯模式的挖掘方法。

(4)轨迹周期模式的挖掘,是指对移动对象运行中的周期规律进行挖掘。

运行中的周期规律在大量事物中存在。

例如,人们定期到超市购物,购物的路径中蕴含周期规律。

动物年复一年地迁徙,迁徙路径蕴含动物迁徙的周期规律。

对于轨迹数据的周期规律进行挖掘,可以发现其中的周期性规律,从而更加精确地进行预测和进行其他研究。

目前,周期模式的挖掘被广泛用于生物学研究,天文学研究,以及商业研究等不同的领域。

2.轨迹数据分类。

轨迹分类的目标在于,对轨迹区分不同的状态。

例如,车辆的运行状态,货物的运输方式,通过轨迹识别不同的船舶类型等。

这就意味着,首先要对原始数据给予适当的标签,然后利用这些带标签的数据结合大量不带标签的数据进行分析。

这种分析方法和轨迹模式的挖掘有着本质的不同,因为后者是针对不带标签的数据进行研究的。

轨迹分类一般分成三个步骤。

第一步,将原始轨迹进行分段,这是轨迹数据挖掘的预处理手段。

第二步,针对每段轨迹提取特征。

第三步,利用分类算法模型对每一段数据进行分类建模。

由于轨迹数据本质上是序列数据,因此可以利用已有的算法进行建模。

例如贝叶斯网络模型,条件随机场,隐马尔科夫模型等。

轨迹数据的分类已经在实际中有了非常广泛的应用。

例如在城市交通领域,出租车有三种状态:有乘客、无乘客、停车。

我们可以利用轨迹分类的方法,对出租车的运行路径进行分析,然后判断出租车的运行状态,从而为旅客带来便利。

在海上交通领域,不同的船舶拥有不一样的轨迹特征。

例如,远洋货轮的轨迹一般是匀速直线轨迹,客轮的轨迹呈现一定的周期性,而渔船等其他船只则显得杂乱无章。

此时,针对船舶的轨迹数据进行分类研究,就可以判别船舶的不同类型。

类似地,利用动物轨迹对不同物种的判别,利用星球运行轨迹对不大数据BIG DATA同星球类型的判别等,都属于轨迹判别的应用。

在实际的应用中,轨迹判别往往与轨迹模式挖掘一起使用。

例如,针对船舶轨迹数据的判别时,一般先进行轨迹聚类。

然后对不同类别的轨迹,研究对应船舶属性。

再进一步建立轨迹判别模型,就可以进行船舶轨迹数据的轨迹判别。

3.轨迹的异常侦测。

这类方法主要用于识别移动物体的异常轨迹,以及通过轨迹分析发现异常事件。

异常轨迹的识别类似于传统统计分析的异常点侦测,需要与轨迹模式挖掘和轨迹分类共同使用。

如果一条轨迹不能被聚到任何一类,或不能被判别到任何一类,那么很有可能就是异常轨迹。

异常事件的发现需要对异常轨迹进行分析,但是需要分析许多轨迹才能发现异常事件。

例如,在航海数据分析中,偷渡事件,非法捕捞事件等对应的船舶轨迹都是异常的。

这些轨迹出现在本不该出现的时间段和海区,因此,可以和其他类型的形成鲜明对比。

这是异常轨迹的侦测。

在天文学中,新的星球发现则需要分析很多已知星球的运行轨迹。

例如,最近对于太阳系第九大行星的研究,就是通过分析柯伊伯带许多矮行星轨道的异常行为得出的。

这是异常事件的发现。

此外,通过分析洋流变化,得出气候变迁也是异常事件的发现。

目前,异常轨迹的侦测是一个重要但是研究难度较大的课题,它的相关理论目前还在继续发展,有很多理论和应用问题都有待解决。

|轨迹数据挖掘的挑战尽管轨迹数据挖掘的应用已经十分广泛,真正意义的轨迹大数据的产生还只是近几年的事情。

因此,相关方法的理论基础,以及轨迹大数据本身的收集、存储、管理等诸多方面,还面临许多需要完善的地方。

具体而言,主要有以下几个方面。

(1)数据的全面性和分析的高效性是一对矛盾。

轨迹本质上是连续的,如果要分析更多的细节,必须使收集更加精细。

这会使得数据更加庞大,结构更加复杂,分析难度更大。

当前大数据分析提出模糊性而非精确性,其实可以理解为,因为数据的复杂性与分析的高效性无法调和,而采用的折中手段。

然而模糊性并没有从根本上解决问题,随着人们对分析要求的越来越高,这对矛盾会始终伴随轨迹数据挖掘的发展。

(2)克服轨迹数据的噪声是另一个难题。

轨迹数据的噪声来源于两个方面。

一是轨迹本身具有随意性。

二是定位手段带来的偏差。

目前的定位手段一般有GPS、WiFi、基站。

它们三者的精度分别为:30米、30米到200米、100米到300米。

对于像远洋船舶这样的大型目标,几十米的偏差影响不大。

但是对于行人、出租车等小目标,就需要慎重对待这类偏差。

对于噪声的克服,需要从收集手段的进步和分析方法的进步两个方面进行努力。

(3)轨迹数据挖掘方法的理论需要进一步完善。

这与轨迹数据挖掘的产生背景有重要关系。

轨迹大数据大量产生的时间还很短,用到的轨迹数据挖掘方法都脱胎于传统方法。

但是轨迹数据与传统的数据类型有着本质的不同,它属于时空数据,存在时间和空间两种相关性。

处理传统数据的方法是否适合轨迹数据?这是目前还需要进一步回答的问题,和研究者需要努力的方向。

|结论本文介绍大数据分析中轨迹数据挖掘的基本思想,和实际应用的例子,论述了轨迹数据挖掘的现状和挑战。

我们可以看出,人类对于移动物体的记录产生了轨迹数据,但是真正意义上的轨迹大数据是近年来的事情。

得益于GPS 技术的不断进步,和移动互联网时代的到来。

因而,轨迹数据挖掘的快速发展也是近几年的事情。

目前已经被应用于各行各业。

但是,这不意味着轨迹数据挖掘已经成熟和完善。

相反,随着实际应用中对于精度和效率的要求的不断提高,轨迹数据挖掘面临越来越多的挑战。

需要从数据收集手段,数据分析技术,以及理论方法等方面进行进一步的提高,才能应对这些挑战。

我们记录了人类的轨迹也知道人类的基因定序数据,接下来呢? 道德家、宗教家及社会学家是否因此可以推断因果轮回;“前世今生的实相——生死的因果轮回”,也许对轨迹大数据来说太玄也太遥远,但我们知道古语云:“善有善报,恶有恶报;欲知前世因,今生受者是;欲知未来果,今生作者是”,这是一个人生轨迹。

您的轨迹呢?我是“长风破浪会有时,直挂云帆济沧海”。

作者单位:台北医学大学大数据研究中心及管理学院杭州电子科技大学。

相关主题