当前位置:文档之家› 基于时间序列相似性匹配算法的研究

基于时间序列相似性匹配算法的研究

第3 I卷第3期 2010年5月 V01.3l NO.3 Mav.2010 井冈山大学学报(自然科学版) Journal of Jinggangshan University(Natural Science) 73 

文章编号:1674—8085(2010)03—0073 05 

基于时间序列相似性匹配算法的研究 

郑华,李炜, 邱剑锋, 林晨, 蒋阿芳 

(安徽大学计算机科学与技术学院, 安徽,合肥230039) 

摘要:把匹配抽缘时间序列 似性的方法引入到地震预报的应用中,结合大量地震历史源数据,地震领域的专 

家经验知识和相天成果基础上,提出了‘种简化的抽象时间序列匹配模型。该模型在对海量数据进行预处理筛选 

的基础上再进行时问相似性匹配,增加了横向和纵向多方位地区和多方位时间段的匹配,不同时问差利闽值的匹 配,并通过大量实验对该模型进行了反复验证,同时对我国地震频繁地区近几十年的地震历史数据进行了相似性 

匹配实验分析,取得了可信度较高的实验结果,实验结果验证了所给时问序列相似性匹配控制策略的有效性、实 

用性以及算法的优越性。 关键字: 时问序列:序列匹配;地震预测;算法;地震相关地区 

中图分类号:TP391 文献标识码:A DOI:1O 3969/j.issn.1674 8085.2010.03.016 

RESEARCH oN SIMILARITY MATCHING ALGoRITHM BASED oN 

TIME SERIES FoR EARTHQUAKE PREDICTIoN 

LI Wei,ZHENG Hua,QIU Jian.feng,ZHU Li-j in,JIANG A—fang 

fSchool of Computer Science and Engineering,Anhui University,Hefei,Anhui 230039,China) 

Abstract:On the basis of analyzing the similarity matching algorithm based on time sequence,several definitions 

on seismological zone relativity are put forward for integrating the large amount source data of history earthquake 

and the expert knowledge in seismological field.Furthermore,we propose the time sequence similarity—matching 

model of the relevant seismological zone and then it is implemented through several correlative experimental 

simulations.Based on the sequence similarity—matching model,a sequence-matching algorithm is given with 

seismological similarity.By discovering the history earthquake database in recent several years,some experiments are designed to analyze longitudinal thick—granularity sequential similarity and thin—granularity sequential 

similarity.Finally,the experimental result show that it’S satisfactory way out using the proposed algorithm to 

support earthquake prediction. Key words:time series;sequence matching;earthquake prediction;algorithm;seismological relevant zones 

O 引言 

时间序Yi](Time series1泛指那些随时问或空间 

有序变化的数据集合,这些数据记录集合往往采用 等时间或空间间隔进行度量。如何有效地管理和利 

用海量数据序列,有效地发现和理解这些数据序列 

背后隐含的规律和知识,已受到越来越多数据挖掘 研究者广泛关注[¨。在其相应的数据挖掘系统中, 

收稿日期:2010 o4—06:修改口期:20l0 04 30 基金项日:安徽省自然科学基金项目(090412063),安徽省滁州f订科技计划项目(200852) 作者简介: 郑华(1984),女,安徽黄lU入,硕士生导师, 主要从事计算机科学研究(E-mail:zhenghua2008@gmail.tom) 李炜f1969一),女,安徽蚌埠人, 硕导,博士,主要从事计算机科学研究(E-mai1:27037424@qq.corn); 邱剑锋(1980),男,安徽合肥人,博十,主要从事计算机科学研究(E-mail:78710109@qq.com); 林晨f1985),男,安徽马鞍山人,硕士,主要从事计算机科学研究(E—mail:l19834074@qq.com); 蒋阿芳f1985一),女,安徽淮北人,硕士,土要从事计算机科学研究(E.mail:1024335893@qq.Corn).

 74 井冈山大学学报(自然科学版) 

时间序列的相似性查询是分析时间序列变化规律 

的一种重要方法L2J。对于时间序列的分类、预测及 

知识发现都具有重要的现实意义。比如在我们熟悉 

的股票,期货,具有相似性销售的产品,恒星的光 谱曲线中相似性度量都具有不可替代的作用 J。 

地震序列是一维时间序列,却蕴藏着动态演化 

中的其它变量的痕迹和信息,因此对地震序列的研 究具有重要意义I4J。时间序列相似度序列匹配是在 

时间、震级数据库中找出与给定时间、震级序列模 

型相似的序列,对相似性度量的建立求解过程,是 数据挖掘中一类重要问题,具体表现在大量数据中 

具有时问和另一性质的二维相关性 J。在地震预报 

科学中,经过大量的研究和积累,专家们发现在一 

定的区域中地震活动具有同步涨落的现象。也就是 

说在一定的区域范围中的两个地区,特定震级以上 的有明显震感的地震相伴发生的现象称为地震的 

相关现象,也称地震的区域相关性。 

地震的相关性反映了地球的自转,向心力相 

似,地质构造的相似,板块运动等对地震发生的规 

律性的影响。所以寻找地震相关区域,进而预报相 关的地震,是人们最常用的预报地震的方法之一。 鉴于传统方法费时费力,预报不精确等特点【6J,本 

文把数据挖掘技术引入地震预报科学中,通过不同 

地区地震数目的不同,首先进行粗相似匹配,即对 

原始地震数据中相差一定地震数目条数以下的地 

震区域将其转化为粗相似格式,其次对粗相似区域 中的数据项转化为时问序列,对粗相似的区域进行 

时间相似度匹配来发现地震相关区域,从而进行地 

震预报。本文首先结合地震领域的相关知识,定义 

了序列的相似度量模型,提出了一种基于相似度序 列匹配的算法,利用相关的地震相似度全面的对时 

间、经纬度和震级等地震相关信息进行处理,从而 快速、全面地找出地震的相关区域 J。 

1 地震相关地区的序列相似性定义 

及度量模型 

地震相关地区相似度匹配研究可以分为以下 几个部分:相似性的定义,度量模型的建立和相似 

度匹配算法的实现。 

相似性定义和度量模型一般根据不同的需求 

进行定义,进而转化为一些抽象的数学模型来解决 

问题。传统的相似性定义是根据时问序列数据的上 升或下降的趋势和需解决的问题相结合来定义 J。 比较典型的有ARMA(auto regression moving average)模型,采用的是随机时间序列分析技术; 

DFT(discrete fourier transform)模型,采用的是把时 

间序列转化为空间中的点,对这些点进行分析处 

理。这些模型中都用了欧几里德距离作为序列间的 

相似性评价函数,也就是当两个序列间的欧氏距离 小于一定的阈值时,就认为此序列相似。但在实际 

应用中,由于序列长度不一,采样率不同,数据多 

少相差较大等问题,使得欧氏距离很难直接用于解 

决问题。 由于地震数据记录的每一次地震发生的时间、 

经度、纬度、震级以及地震事件序列等。其具非线 

性特点,传统的时间序列相似性度量模型和匹配很 难使用于地震数据。 

对此,本文根据地震相关领域知识,通过适当 

的数据预处理,将其转化为一定震级,一定时间, 

一定空间范围内的地震事件序列集。构成不同的地 

震时间序列。下面给出地震序列及相似性定义及地 

震序列相似性的模型。 

定义1(地震事件)把预处理过的地震数据目 录中的每一条地震记录定义为一次事件。按照不同 

的空间属性划分为不同的地震事件集。在地震事件 

集上t时刻发生的地震事件记为 。 

定义2(地震事件序列)在一定的区域中发生 

在一定的时间范围Ⅳ内的地震事件集Ft=-{F(t)lt ̄ 在时间轴上的一个排列。 

定义3(地震序列)对预处理过的地震数据目 录里的地震数据提取其时间和震级,抽象为地震序 

列。 

定义4(完整地震序列)在某些地震区域中, 

对于地震序YOS,在没有发生地震事件的时间上用空 元素给予填充的地震序列 。 

定义5(地震相似性)设 ,y分别是两个地 

震序列,用函数∞ , )来表示其相似性。 

令∞ )=1,若Ix(t)-y(t)l<_M ̄。。h。ldl; 

∞ )=0,若 ( - ( I>Mthr。sh。ldl; ( , ( 表示 ,Y的时间点,x(O-y(O表示其 

时间差。 

令 )=1,若Ix(m)-y(m)l<Mthre。hold2; 

=0,若[x(m)-y(m)l>Mthreshold2; 

( ), ( )表示 , 的震级数,x(m)-y(m)表 示震级差。 

MIhr。 h0ld1为年份误差的阈值,M 。hold

2为震级误

相关主题