当前位置:文档之家› 一种无限长时间序列的分段线性拟合

一种无限长时间序列的分段线性拟合


点变化幅度的控制, 可以较好地过滤变化短暂的噪音 数据; 缺点是: 由于限定了极值点的变化幅度, 对于变 化时长小于 C的转折点则无法有效识别, 如图 1 ( 选取 , 和X 之间的点) 因为保持极值的时间段 C = 0 0 4 X 1 6 3 2 , 则这些数据被认为是噪音数据 与 L的比值小于 0 0 4 而删除; 但同时, 对于短暂变化的尖峰数据, 则有可能 被认为是噪音数据而被忽略, 比较图 1 和图 2 , 点保 X 6 0 3 持极值的时间段与 L的比值 = , 在 C=0 =0 0 3 0 3 1 0 0 时为一特征点, 但在 C=0 0 4时该点被认为是噪音数 从分析中可知, 阈值 C是特征点判断的影响 据被忽略 . 因子, 其取值和领域知识、 序列长度以及用户关注角度 有关, 因此不同的 C值会得到不同的拟合结果, 直接影 响拟合的质量; 同时, 当 时间 序 列 的 长 度 L为 无 穷 大 则F 算法不再适用 . 时, C为无穷小, P S e g m e n t a t i o n
ቤተ መጻሕፍቲ ባይዱ2 1 符号说明
定义本文使用的一些符号如下: ( ) 〈 ( , ) , …( , ) , …( …〉 ( 1 T= x t x t x t 0 <i 1 1 i i ɕ, ɕ) : 采样时间间隔相同的时间序列, 其中( , ) 表 <ɕ) x t i i 示采样时间 t 时刻的数值为 x ; i i ( ) ( , ) , … ( , ) , …X 2 X=〈 X t x X x t x 1 1 1 i t i i ɕ( ɕ, ɕ) …〉 , 将 T经过归一化处理后用直角坐标系 0 <i <ɕ: 表示的点序列, 横坐标为时间轴, 纵坐标为数值轴; - X ( )X : 表示时间序列中 ( , ) 和 X ( , 3 X t x t i j i i i j j ) 在坐标平面内的欧氏距离; x j ( ) ( ) : 极值点, 4 E P E x t r e m e P o i n t T的单调性在极值 点发生改变; ) ( ) : 关键点, 满足筛选条件的极值点; ( 5 K P K e y P o i n t ( ) , …, : 关键点集 6 K P S =<K P K P 1 n> ( ) : 筛选角度 7 α0
2 相关工作
本节 对三 种 主 要 的 时 间 序 列 分 段 线 性 拟 合 算 法
[ ] [ ] [ ] 4 6 2 ( , 和K ) I P S e g m e n t a t i o n F P S e g m e n t a t i o n P S e g m e n t a t i o n 进行比较分析, 说明现有 P 算法存在的问题和不足 . L F
摘 要: 本文提出了一种无限长时间序列的分段线性拟合( , 简称 I I n f i n i t e T i m eS e r i e s i e c e w i c e L i n e a r F i t t i n g T S -P - ) 算法, 该算法根据关键点保持时间段的统计特性, 确定选择关键点的区间范围; 若极值点的保持时间段不在区间 P L F 范围, 则根据包含极值点的连续三个时间数据之间的夹角与筛选角度之间的关系, 判断该极值点成为关键点的可能 性. 实验表明, 算法的执行不依赖于时间序列长度及领域知识, 可以有效识别关键点, 并可根据数据压缩率的 I T S L F -P 变化实现自适应拟合 . 关键词: 时间序列;分段线性拟合;压缩率 T P 3 1 1 1 3 文献标识码: A 文章编号: )0 0 3 7 2 2 1 1 2( 2 0 1 0 2 0 4 4 3 0 6 中图分类号:
A nP i e c e w i s eL i n e a r F i t t i n gA l g o r i t h mf o r I n f i n i t eT i m eS e r i e s
, Y A NQ i u y a n X I AS h i x i o n g
( , , , , ) T h e S c h o o l o f C o m p u t e r S c i e n c e a n dT e c h n o l o g y C h i n aU n i v e r s i t y o f M i n i n gT e c h n o l o g y X u z h o u J i a n g s u2 2 1 1 1 6 C h i n a
: I A b s t r a c t no r d e r t or e s o l v i n gt h e p r o b l e mo f d e p e n d i n go nt h el e n g t ho f t i m es e r i e s a n dd o m a i nk n o w l e d g eo f t r a d i t i o n a l , ( ) P L Fa l g o r i t h m w e p r o p o s e da P i e c e w i s e L i n e a r F i t t i n ga l g o r i t h mf o r I n f i n i t e T i m e S e r i e s I T S L F . T od e t e r m i n e t h e i n t e r v a l o f -P , t h e s t a t i s t i c a l a t t r i b u t e s o f m a i n t a i n i n gt i m eo f t h e s eK e yP o i n t s w a s c o n s i d e r e d . I f t h em a i n t a i n i n gt i m eo f a K e y P o i n t s s e l e c t i n g , E x t r e m e P o i n t b e y o n dt h e s e l e c t i o ni n t e r v a l t h e r e l a t i o nb e t w e e nt h e t h r e s h o l da n g l e a n dt h e a n g l e o f t h r e ec o n s e c u t i v ed a t ap o i n t s c o n t a i n i n gt h e E x t r e m e P o i n t w a s s e l e c t e d t o d e t e r m i n e w h e t h e r t h e E x t r e m e P o i n t w a s a K e y P o i n t o r n o t . T h e e x p e r i m e n t a l r e s u l t s , s h o wt h a t I T S L Fa l g o r i t h md o e s n o t d e p e n do nt h e l e n g t ho f t i m e s e r i e s a n dd o m a i nk n o w l e d g e c a ne f f e c t i v e l yi d e n t i f yt h e K e y -P P o i n t a n da d a p t i v e l yf i t t h e t i m e s e r i e s a c c o r d i n gt ot h e c h a n g i n go f t h e d a t a c o m p r e s s i o nr a t i o . : t ; ; K e yw o r d s i m e s e r i e s p i e c e w i s e l i n e a r f i t t i n g c o m p r e s s i o nr a t i o
基金项目: 国家自然科学基金( ) ; 中国矿业大学青年科研基金( ) N o . 5 0 6 7 4 0 8 6 N o . 2 0 0 8 A 0 4 1
内容版权归作者所有
更多技术文章,论文请登录
4 4 4 电 子 学 报 年 2 0 1 0
点的保持时间段不在区间范围, 选择包含极值点的连 续三个数据点, 并根据三点构成的夹角与筛选角度之 间的关系判断其成为关键点的可能性, 从而解决了 P L F 算法依赖于时间序列长度 L及领域知识的问题 . 实验 算法的执行不依赖于 L及领域知识, 可 表明, I T S L F -P 以有效识别关键点, 并可根据数据压缩率的变化实现 自适应拟合 .
2 2 相关算法比较
本文 选 取 Q , u a r t e r l yS & P5 0 0i n d e x 1 9 0 0-1 9 9 6 . [ ] 7 : , ) 的 S o u r c e M a k r i d a k i s Wh e e l w r i g h t a n dH y n d m a n( 1 9 9 8 前1 条数据, 对三种算法的拟合效果进行说明: 0 0
1 引言
时间序列 的 分 段 线 性 拟 合 ( P i e c e w i s eL i n e a r F i t t i n g 简称 P ) 是时间序列的模式表示方法中研究最早和最 L F 多的方法之一 . 是指用 K条首尾相邻的线段近似表 P L F ] 1 的时间序列[ 示一条长度为 L . 在时间序列的 P 方法中, 线段的数目决定了对原 L F 始序列的近似粒度, 线段越多, 线段的平均长度就越短, 反映了时间序列的短期波动情况; 线段越少, 线段的平 ] 2 均长度就越长, 反映了时间序列的中长期趋势[ , 通常 [ ] 3 用数据的压缩率 来表征这个参数, 这里的压缩率为从 数据序列中删除的数据点所占的比例, 如8 0 %的压缩 率即为选择 2 一种好 0 %个数据点并删除剩余的 8 0 %. 的时间序列的模式表示方法必须能够准确识别噪音数 据, 并对噪音数据进行有效过滤, 从而保证较高的数据 压缩率 .
相关主题