当前位置:文档之家› 第三章时间序列挖掘相似性

第三章时间序列挖掘相似性


• 定理:对于长度为 n 的任何两个时间序列 X 和 Y, 限定弯曲路径窗口为w,即对于 xi和 yj点的比较, 限定为 j-w i j+w,存在如下不等式: LB_ Hust(X,Y) Keogh(X,Y) 。 • 性质1:LB_Hust 距离是对称的。即 LB_Hust (X,Y) =LB_Hust (Y,X)。这可以减少距离计算的次数。 • 性质2:在 LB_Hust 距离计算方式下,时间复杂度 由传统的 DTW 距离计算的 O(nm)缩减到 O(n)。
时间序列常见距离定义
(6) Uniform Scaling距离
• time series – query, Q, length n – candidate, C, length m (m>n)
C
Q
0
100
200
300
400
Uniform Scaling
• time series – query, Q, length n – candidate, C, length m (m>n)
时间序列相似性应用场景
• 1.区别多个公司发展的相似性模型; • 2.在股票价格上寻找价格波动的相似运动; • 3.在乐谱版权问题上确认两份乐谱是否存在相似 性; • 4.对具有相似销售模式的商品进行聚类; • 5.查找具有相似病情的心电图; • 6.对网络的异常流量预警; • 7.对天气预报中灾害天气的模式提取等。
for i := 1 to n for j := 1 to m cost:= d(s[i], t[j]) DTW[i, j] := cost + minimum(DTW[i-1, j ], DTW[i , j-1], DTW[i-1, j-1])
} return DTW[n, m]
DTW的优缺点
• DTW 的优点在于:①克服了 Euclidean 距离 点对必须对应的问题,允许不同步的点对 应计算;②允许两时间序列具有不同长度; ③对时间序列的同步问题不敏感。
DTW的优缺点
• 缺点在于:①DTW 的计算复杂度较高,对于长度分别为 n和m 的时间序列,准确计算DTW 距离需要 O ( nm )的 时间复杂度;②DTW 并不满足距离的三角不等式(例如, DTW(111,111222)>DTW(111,112)+DTW(112,111222)),在 应用到依据索引的时间序列相似查询时剪枝过滤的程度 有限,在使用索引查询时则可能会产生漏查。 ③病态弯 曲问题,由于 DTW允许在比较的时候两个时间序列可进 行一定的非对应时刻匹配,即求取最小距离而忽略时间 上的差异,这容易形成时域差异过大的情况发生。 • 解决办法:对于①,对比较的时间序列数据进行降维处 理,进一步探索高压缩率和高效保真的降维方法;对于 ③,设定路径查找的带宽限制,即比较点不会超出参照 点的[ti-w,ti+w]的时间范围。这种方法同时 还可能降低 算法的时间复杂度。
• 对于时间序列 和 ,定 义距离矩阵:DM=(aij) m×n ,其中aij=(xi-yj)2, 或其它 度量。
在DM中寻找一条弯 曲路径W=w1,w2,…, wK, 其中wi=某个aij , 满足以下性质: 1、有界性: max{m , n}≤ K≤m+n-1; 2、边界性:w1=a11, wk=amn ; 3、单调性和连续性: 在弯曲路径中,相邻 两个元素wk=aij, wk+1=ast ,则0s-i 1, 0 t-j 1。
DTW与Uniform Scaling的不同
• Dynamic Time Warping (DTW) – Considers only local adjustments in time, to match two time series – However sometimes global adjustments are required
LB_Keogh的Matlab实现
LB_Keogh=sqrt(sum([[Q > U].* [Q-U]; [Q < L].* [L-Q]].^2));
LB_Hust 距离---对LB_Keogh距离的改进
• 针对 LB_Keogh距离计算的非对称性
• 其中,Lxi和 Uxi分别对应时间序列 X 的第 i 个元素在 2w 时间域内的最小值和最大值。Lyi和 Uyi同理。距 离产生方式如图 3-5 所示。
斜率距离---欧氏距离的一个变形
• 设 其中 X 和Y 分别 是原始时间序列数据转换而成的斜率组成的时间 序列,即:
时间序列常见距离定义
(3)编辑距离(Edit Distance) • Edit 距离是计算两字符串序列的距离一种度量,它 的定义是将一字符串转换为另一字符串所需的最 小编辑(插入、删除、改变)步数。 • 将时间序列进行不同的量化和编码后形成字符串, 采用编辑距离计算两字符串的距离。 • Edit 距离的优点是:①充分利用了字符串匹配等成 熟计算方法;②容易为人所理解; ③允许多对无。 • 缺点是:①需要将时间序列转化为相应的字符串, 精度不高;②对于不同步的时间序列效果较差。
时间序列常见距离定义
(4)最大公共子串 LCS(Longest Common Subseries)方法 • LCS是计算两时间序列间具有的公共长度子串,并 以该子串的长度与这两个时间序列中较长序列的 长度比值作为序列间的相似性度量。 • LCS 方法借用字符串匹配中的相似性度量,有其一 定的可取之处。其不足是:①公共长度子串的长 度可能偏小,两时间序列间可能非常相似,但是 由于数值并不能完全一致,细小的偏差都会导致 公共子串的长度偏小,从而影响到度量效果;② 公共长度子串的获取是一个问题,虽然可以采用 较为常见的动态规划的方法解决,但是由于时间 序列很可能是长度很长的序列,空间开销较大。
0 100
C
Q
200 300 400
• stretch Q to length p (n≤p≤m): Qp
– Qpj = Q┌j*n/p┐, 1 ≤ j ≤ p
Q
Qp
0 100 200 300 400
• scaling factor, sf = p/n
– max scaling factor, sfmax= m/n
例如:
• • • • a=1:10 b=1:13 如c=b*(10/13),则得 c=0.7692308 1.5384615 2.3076923 3.0769231 3.8461538 4.6153846 5.3846154 6.1538462 6.9230769 7.6923077 8.4615385 9.2307692 10.0000000 • 如 c=ceiling(b*(10/13)) • 则 c= 1 2 3 4 4 5 6 7 7 8 9 10 10
Given two time series Q = q1…qn and C = c1…cn their Euclidean distance is defined as:
Q
C
DQ, C qi ci
氏距离的优缺点
• Euclidean 距离的优点在于:①直观而计算简便, 有良好的数学背景和意义;②由于序列的一些常 用变换(如傅立叶变换等)的系数有欧氏距离保持 不变的性质,所以经常用于数据库的高效索引; ③无参。 • 缺点在于:①需要计算的两序列具有相同的长度; ②对于时间序列点的突变(e.g. noise)比较敏感; ③Euclidean 距离对序列按照时间轴进行点对点依 次计算,对时间序列的错位、移位(out of phase) 等比较敏感。
通常将w选为时间序列长度的10%。
LB_Keogh:一种考虑弯曲路径限制的DTW 计算 方法
• 对于弯曲路径限制为 w 的时间序列 DTW 距离计算, 定义两个序列 U 和 L,其中对于第 i 个元素我们 有如下的上下界定义:
• U 和 L 作为在 2w 时间窗内,对于原时间序列的 每个元素所对应的上下界,表现在图形上实际上是 形成了一个带状的域将原始时间序列包裹在这个域 中,如图 3-4 所示。
时间序列常见距离定义
• 时间序列间的距离可用来衡量时间序列之间的差 异性,以确定序列是否相似。 (1)Minkowski 距离(Minkowski Distance) • Minkowski 距离实际是一系列距离的集合,对于 两时间序列 和 其计算方法 为
其中p=1时为曼哈顿距离;p=2时为欧氏距离;
时间序列常见距离定义
(5)DTW 距离(Dynamic Time Warping Distance) • DTW 距离最先在语音数字处理领域得到诸多成功 的应用,由 Berndt 和 Clifford于 90 年代中旬 引入到时间序列挖掘中,并取得了巨大的成功。 • 在时间序列中,需要比较两段长度可能并不相等 的时间序列的相似性,在语音识别领域表现为不 同人的语速不同。而且同一个单词内的不同音素 的发音速度也不同,比如有的人会把‘A’这个音 拖得很长,或者把‘i’发的很短。另外,不同时 间序列可能仅仅存在时间轴上的位移,亦即在还 原位移的情况下,两个时间序列是一致的。在这 些复杂情况下,使用传统的欧几里得距离无法有 效地求得两个时间序列之间的距离(或者相似性)。
第三章
时间序列挖掘●相似性
山西财经大学信息管理学院常新功
目 录
• • • • 时间序列相似性定义 时间序列相似性应用场景 时间序列常见距离定义 时间序列相似性分类
时间序列相似性定义
• 反映两条时间序列相似程度的值刻划了这两条时间序 列的相似性,其概念和方法是时间序列挖掘的基础。 • 给定某个时间序列,要求从大型时间序列数据集合中 找出与之相似的序列---静态时间序列的相似性。 • 实际生活中有大量以动态序列形式存在的时间序列 (时间序列流)。 • 随着研究的深入,动态时间序列的相似性问题也日益 成为新时期时间序列相似性问题研究的重要组成部分。 • 与传统静态数据的精确相似不同,时间序列的相似性 会呈现多种变形,如振幅平移和伸缩、线性漂移、不 连续、噪声、时间轴伸縮等等。针对这些相似性变形, 研究者们提出了很多种相似性度量方法。
相关主题