当前位置：文档之家› 第三章时间序列挖掘相似性

第三章时间序列挖掘相似性

• 定理：对于长度为 n 的任何两个时间序列 X 和 Y，限定弯曲路径窗口为w，即对于 xi和 yj点的比较，限定为 j-w i j+w，存在如下不等式： LB_ Hust(X,Y) Keogh(X,Y) 。 • 性质1：LB_Hust 距离是对称的。即 LB_Hust (X,Y) =LB_Hust (Y,X)。这可以减少距离计算的次数。 • 性质2：在 LB_Hust 距离计算方式下，时间复杂度由传统的 DTW 距离计算的 O(nm)缩减到 O(n)。
时间序列常见距离定义
(6) Uniform Scaling距离
• time series – query, Q, length n – candidate, C, length m (m>n)
C
Q
0
100
200
300
400
Uniform Scaling
• time series – query, Q, length n – candidate, C, length m (m>n)
时间序列相似性应用场景
• 1．区别多个公司发展的相似性模型； • 2．在股票价格上寻找价格波动的相似运动； • 3．在乐谱版权问题上确认两份乐谱是否存在相似性； • 4．对具有相似销售模式的商品进行聚类； • 5．查找具有相似病情的心电图； • 6．对网络的异常流量预警； • 7．对天气预报中灾害天气的模式提取等。
for i := 1 to n for j := 1 to m cost:= d(s[i], t[j]) DTW[i, j] := cost + minimum(DTW[i-1, j ], DTW[i , j-1], DTW[i-1, j-1])
} return DTW[n, m]
DTW的优缺点
• DTW 的优点在于：①克服了 Euclidean 距离点对必须对应的问题，允许不同步的点对应计算；②允许两时间序列具有不同长度； ③对时间序列的同步问题不敏感。
DTW的优缺点
• 缺点在于：①DTW 的计算复杂度较高，对于长度分别为 n和m 的时间序列，准确计算DTW 距离需要 O ( nm )的时间复杂度；②DTW 并不满足距离的三角不等式(例如， DTW(111,111222)>DTW(111,112)+DTW(112,111222))，在应用到依据索引的时间序列相似查询时剪枝过滤的程度有限，在使用索引查询时则可能会产生漏查。 ③病态弯曲问题，由于 DTW允许在比较的时候两个时间序列可进行一定的非对应时刻匹配，即求取最小距离而忽略时间上的差异，这容易形成时域差异过大的情况发生。 • 解决办法：对于①，对比较的时间序列数据进行降维处理，进一步探索高压缩率和高效保真的降维方法；对于 ③，设定路径查找的带宽限制，即比较点不会超出参照点的[ti-w,ti+w]的时间范围。这种方法同时还可能降低算法的时间复杂度。
• 对于时间序列和，定义距离矩阵：DM=(aij) m×n ，其中aij=(xi-yj)2, 或其它度量。
在DM中寻找一条弯曲路径W＝w1,w2,…, wK, 其中wi=某个aij ，满足以下性质： 1、有界性： max{m , n}≤ K≤m+n-1； 2、边界性：w1=a11, wk=amn ； 3、单调性和连续性：在弯曲路径中，相邻两个元素wk=aij, wk+1=ast ，则0s-i 1, 0 t-j 1。
DTW与Uniform Scaling的不同
• Dynamic Time Warping (DTW) – Considers only local adjustments in time, to match two time series – However sometimes global adjustments are required
LB_Keogh的Matlab实现
LB_Keogh=sqrt(sum([[Q > U].* [Q-U]; [Q < L].* [L-Q]].^2));
LB_Hust 距离---对LB_Keogh距离的改进
• 针对 LB_Keogh距离计算的非对称性
• 其中，Lxi和 Uxi分别对应时间序列 X 的第 i 个元素在 2w 时间域内的最小值和最大值。Lyi和 Uyi同理。距离产生方式如图 3-5 所示。
斜率距离---欧氏距离的一个变形
• 设其中 X 和Y 分别是原始时间序列数据转换而成的斜率组成的时间序列，即：
时间序列常见距离定义
(3)编辑距离(Edit Distance) • Edit 距离是计算两字符串序列的距离一种度量，它的定义是将一字符串转换为另一字符串所需的最小编辑(插入、删除、改变)步数。 • 将时间序列进行不同的量化和编码后形成字符串，采用编辑距离计算两字符串的距离。 • Edit 距离的优点是：①充分利用了字符串匹配等成熟计算方法；②容易为人所理解； ③允许多对无。 • 缺点是：①需要将时间序列转化为相应的字符串，精度不高；②对于不同步的时间序列效果较差。
时间序列常见距离定义
(4)最大公共子串 LCS(Longest Common Subseries)方法 • LCS是计算两时间序列间具有的公共长度子串，并以该子串的长度与这两个时间序列中较长序列的长度比值作为序列间的相似性度量。 • LCS 方法借用字符串匹配中的相似性度量，有其一定的可取之处。其不足是：①公共长度子串的长度可能偏小，两时间序列间可能非常相似，但是由于数值并不能完全一致，细小的偏差都会导致公共子串的长度偏小，从而影响到度量效果；② 公共长度子串的获取是一个问题，虽然可以采用较为常见的动态规划的方法解决，但是由于时间序列很可能是长度很长的序列，空间开销较大。
0 100
C
Q
200 300 400
• stretch Q to length p (n≤p≤m): Qp
– Qpj = Q┌j*n/p┐, 1 ≤ j ≤ p
Q
Qp
0 100 200 300 400
• scaling factor, sf = p/n
– max scaling factor, sfmax= m/n
例如：
• • • • a=1:10 b=1:13 如c=b*(10/13)，则得 c=0.7692308 1.5384615 2.3076923 3.0769231 3.8461538 4.6153846 5.3846154 6.1538462 6.9230769 7.6923077 8.4615385 9.2307692 10.0000000 • 如 c=ceiling(b*(10/13)) • 则 c= 1 2 3 4 4 5 6 7 7 8 9 10 10
Given two time series Q = q1…qn and C = c1…cn their Euclidean distance is defined as:
Q
C
DQ, C qi ci
氏距离的优缺点
• Euclidean 距离的优点在于：①直观而计算简便，有良好的数学背景和意义；②由于序列的一些常用变换(如傅立叶变换等)的系数有欧氏距离保持不变的性质，所以经常用于数据库的高效索引； ③无参。 • 缺点在于：①需要计算的两序列具有相同的长度； ②对于时间序列点的突变(e.g. noise)比较敏感； ③Euclidean 距离对序列按照时间轴进行点对点依次计算，对时间序列的错位、移位(out of phase) 等比较敏感。
通常将w选为时间序列长度的10%。
LB_Keogh：一种考虑弯曲路径限制的DTW 计算方法
• 对于弯曲路径限制为 w 的时间序列 DTW 距离计算，定义两个序列 U 和 L，其中对于第 i 个元素我们有如下的上下界定义：
• U 和 L 作为在 2w 时间窗内，对于原时间序列的每个元素所对应的上下界，表现在图形上实际上是形成了一个带状的域将原始时间序列包裹在这个域中，如图 3-4 所示。
时间序列常见距离定义
• 时间序列间的距离可用来衡量时间序列之间的差异性，以确定序列是否相似。 (1)Minkowski 距离(Minkowski Distance) • Minkowski 距离实际是一系列距离的集合，对于两时间序列和其计算方法为
其中p=1时为曼哈顿距离；p=2时为欧氏距离；
时间序列常见距离定义
(5)DTW 距离(Dynamic Time Warping Distance) • DTW 距离最先在语音数字处理领域得到诸多成功的应用，由 Berndt 和 Clifford于 90 年代中旬引入到时间序列挖掘中，并取得了巨大的成功。 • 在时间序列中，需要比较两段长度可能并不相等的时间序列的相似性，在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同，比如有的人会把‘A’这个音拖得很长，或者把‘i’发的很短。另外，不同时间序列可能仅仅存在时间轴上的位移，亦即在还原位移的情况下，两个时间序列是一致的。在这些复杂情况下，使用传统的欧几里得距离无法有效地求得两个时间序列之间的距离(或者相似性)。
第三章
时间序列挖掘●相似性
山西财经大学信息管理学院常新功
目录
• • • • 时间序列相似性定义时间序列相似性应用场景时间序列常见距离定义时间序列相似性分类
时间序列相似性定义
• 反映两条时间序列相似程度的值刻划了这两条时间序列的相似性，其概念和方法是时间序列挖掘的基础。 • 给定某个时间序列，要求从大型时间序列数据集合中找出与之相似的序列---静态时间序列的相似性。 • 实际生活中有大量以动态序列形式存在的时间序列 (时间序列流)。 • 随着研究的深入，动态时间序列的相似性问题也日益成为新时期时间序列相似性问题研究的重要组成部分。 • 与传统静态数据的精确相似不同，时间序列的相似性会呈现多种变形，如振幅平移和伸缩、线性漂移、不连续、噪声、时间轴伸縮等等。针对这些相似性变形，研究者们提出了很多种相似性度量方法。

e商务文档

第三章时间序列挖掘相似性

相关文档推荐：