当前位置：文档之家› LS-Cluster：大规模多变量时间序列聚类方法

LS-Cluster：大规模多变量时间序列聚类方法

收稿日期：0 1 6 - 0 汪卫 ,教授。
一条序列，这种序列就叫作多变量时间序列。多变量时间序列广泛存在于金融、传感器网络、医疗等各种领域。本文旨在对这种有上千甚至上万个变量的大规模多变量时间序列进行聚类分析。对大规模传感器网络多变量时间序列以天为周期进行聚类，我们可以得到一年中哪些天的传感器状态是相似的，这对传感器网络的监测和维护有着重要的意义。对股票行情数据以交易日为周期进行聚类，我们可以得到一年中哪些交易日的行情是相似的，这可以作为投资者投资和决策的参考依据。在已有的研究工作中，其研究的多变量时间序列的变量数目均很少，在这些已有研究所使用
第 34卷第5 期 2017年 5 月
计算机应用与软件
Computer Applications and Software
Vol.34 No.5 May 2017
LS-Cluster:大规模多变量时间序列聚类方法
郑诚王鹏汪卫
( 复旦大学计算机科学技术学院上海 201203) ( 复旦大学上海市数据科学重点实验室上海 201203)
(School of Computer Science ,Fudan University ^Shanghai 201203, China) {Shanghai Key Laboratory of Data Science ,Fudan University ^Shanghai 201203 , China)
摘要现有的关于多变量时间序列聚类的研究中所研究的变量规模均较少，而现实生活又经常会出现大规模多变量时间序列，因此提出了 •算法，旨在对有上万变量的大规模多变量时间序列进行聚类。首先，将
LS-Clutei
每个时刻的多变量时间序列转化成矩形网格，然后使用二维离散佘弦变换对其进行特征提取。接着提出了法在人工合成数据和真实数据上都有较好的效果和可扩展性。关键词中图分类号大规模多变量时间序列离散佘弦变换
4 - 0 1 。国家自然科学基金项目（ U1509213) 。郑诚，硕士生,主研领域：时间序列，数据挖掘。王鹏，副教授。
206
计算机应用与软件
2017 年
的数据集中，变量数目最多的是 E E G 数据集[1]，有 64 个变量。而在现实生活中又经常会出现有上千甚至上万变量的大规模多变量时间序列的数据，并且变量之间有一定的相关性。例如在大规模传感器网络、股票行情和大型服务器机房监控等数据中，变量数就有可能会达到上千甚至上万。因此有必要研究在大规模多变量时间序列下的聚类方法。本文中，我们提出了 L S - C lu ste i • 聚类方法，和之前的研究工作不同，我们主要聚焦于处理变量数目非常多的大规模多变量时间序列，例如数千甚至上万个变量的多变量时间序列，并且方法考虑了变量之间的相关性。首先，将多变量时间序列中每个时刻的每个变量的值放入矩形网格中，使得每个时刻的数据都形成一个矩形网格，然后我们使用二维离散余弦变换来对矩形网格提取特征，得到一个特征矩阵。从一个时刻到另一时刻的特征矩阵的变换可以看成是高维空间中的一个向量，我们把这种向量称为线段，所有的线段的序列我们称之为线段序列。从而，多变量时间序列可以用高维空间的线段序列来表示。为了进行聚类分析，我们提出了 L S 相似度来计算线段序列之间的相似程度，最后我们采用层次聚类来发现其中的模式并找出其中的离群点。实验环节中，我们采取人工合成数据和金融数据来验证我们的方法。在人工合成数据上的实验结果显示我们的方法比其他的方法有更好的聚类效果和可扩展性。进一步的，我们在 2 0 0 8 年上海证券交易所的 1 1 0 支股票行情数据上进行了实验。我们发现聚类结果和上证指数有着较高的一致性，并发现了一些离群点，说明了我们的方法得到了较好的聚类效果。
In the existing studies on multivariate time series clustering, the size of the variables studied is small ,and in real life , large scale multivariate time series often appear. Therefore , LZ-Cluster algorithm is pro clustering large scale multivariate time series with tens of thousandsof variables. Firstly, the each time is transformed into a rectangle grid, and then two-dimensional discrete cosine transform is used to extract features. LZ similarity is proposed to calculate the degree of similarity between feature sries. Finally , hierarchical clustering method is used to discover the patterns. The expermental results show that the proposed method has good performance and extensibility in both synthetic data and real data. K e y w o rd s Large scale Multivarate time seres Discrete cosine transform LS similarty Clusterng
LS相
似度用于计算特征序列之间的相似程度。最后，采用层次聚类方法发现其中所蕴含的模式。实验结果显示，该方
TP3
文献标识码
A
LS相似度聚类 DOI:10.3969/j.issn.1000-386x.2017.05.036
LS-CLUSTER： LARGE SCALE MULTIVARIATE TIME SERIES CLUSTEห้องสมุดไป่ตู้ING METHOD Zheng Cheng Wang Peng Wang Wei
A b s tra c t
〇引言在现实生活中，经常会出现同一时刻产生多个数据值的情况，这些数据值共同描述了当前的状态。例如在有上千个传感器结点的大规模传感器网络中，同一时刻会有上千个数据产生，这些数据共同描述了当前传感器网络的状态。又如在金融领域中，沪深股市共有2 000多支股票，在交易时间段内每一时刻就会产生2 000多个价格，这2 000多个价格共同描述了当前股市的状态。这些状态按照时间顺序排列就构成了

e商务文档

LS-Cluster：大规模多变量时间序列聚类方法

相关文档推荐：