当前位置:
文档之家› 时间序列挖掘聚类经典课件(PPT61页)
时间序列挖掘聚类经典课件(PPT61页)
基于模型的聚类的基本思想是把原始时间序列转换 成模型的几个参数,比如AR模型或HMM模型等,然 后用模型参数进行聚类(Jie and Qiang, 2005, Camastra and Verri, 2005, Xiong and Yeung, 2004, Panuccio et al., 2002)。这种方法的不足 之处在于需要对数据的分布进行预先假设,此外, 对参数的聚类结果无法进行解释,使得聚类缺乏可 理解性。
– (1)时间序列被看成高维空间中的一个点,所以数据分布 会呈现稀疏性,从而导致欧氏距离不能正确测度对象间的 相似程度(Wang et al., 2005, Domeniconi et al., 2004);
– (2)多数算法的性能受参数设置的影响,在缺乏背景知识 时,用户可以根据反馈的算法结果精调参数,但高维数据 造成聚类结果无法可视化,使得用户很难判断聚类结果的 质量,所以很难合理设置参数(Jain, 2010, Chen, 2007, Lin et al., 2004,Ding and He, 2004)。
基于原始序列数据的时间序列聚类
• 直接运行在原始时间序列上的聚类称为基于原始数 据的聚类(Zhang et al., 2011, Rodrigues et al., 2008, Warren Liao, 2005)。
• 但在实践中,由于时间序列的高维特点,会导致大 部分的聚类方法失效,具体表现为:
聚类算法的评价标准
• 5) 最小化用于决定输入参数的领域知识和数据记录敏 感性:一方面要求降低算法对输入参数的敏感程度, 另一方面要求输入记录顺序对算法的结果影响小。要 求用户输入参数不仅会加重用户的负担,也使得聚类 的质量难以控制。
• 6) 处理噪声数据的能力:绝大多数现实世界中的数据 库都包含了孤立点,空缺,未知或者错误的数据。一 些聚类算法对于这样的数据敏感,导致聚类质量不高。
• 3) 发现任意形状的聚类:许多聚类算法基于欧几里 德距离或者曼哈顿距离度量来决定聚类。基于这种距 离度量的算法趋向于发现具有相近尺度和密度的球状 簇。但是一个簇可能是任意形状的,提出能发现任意 形状簇的算法是很重要的。
• 4)交互可视化:高维数据和复杂对象常常使可视化变 得困难,而交互性则使算法与人结合有利于提高聚类 的质量。
聚类算法的评价标准
• 1) 可伸缩性:可伸缩性考察聚类算法对于目标对象 集合的规模以及目标集合潜在的模式数量的适应性。
• 2) 处理不同类型属性的能力:除了通常处理的数值 型数据,应用当中可能要求聚类其它类型的数据,如: 二元类型,分类/标称类型,序数型,时间序列、图 数据或者不同数据类型的混合。
小结
• 现有时间序列聚类方法大致可分成:基于 原始序列、基于特征值和基于模型参数三 种。
基于特征数据的时间序列聚类
• 基于特征的表示方法是把原始时间序列转换到一个 低维的特征空间,然后用传统的聚类方法对特征向 量进行聚类(Yang et al., 2009, Xiaozhe et al., 2007,Keogh et al., 2007, Chen, 2007, Zhang et al., 2006, Wang et al., 2006,Costa Santos et al., 2006,Wang et al., 2005,Bagnall and Janacek, 2005,Domeniconi et al., 2004)。
第六章
时间序列挖掘●聚类
山西财经大学信息管理学院常新功
目录
• 聚类的概念 • 聚类算法的评价标准 • 时间序列聚类概述 • k-mediods时间序列聚类 • 基于 LB_Hust 距离的时间序列聚类 • 基于SAX表示的聚类
聚类的概念
• 聚类(Clustering)是数据挖掘领域中的一个重要 分支。所谓聚类,是指将物理或抽象对象的集合分 组成为由类似的对象组成的多个类的过程 。
• 7) 高维性:许多聚类算法只擅长处理低维数据。在高 维空间中聚类数据对象是一个挑战,特别是在数据有 可能非常稀疏和偏斜时。
• 8) 可解释性和可用性:知识发现过程中,聚类结果总 是需要表现为一定的知识,这就要求聚类结果可解释, 易理解。
时间序列聚类概述
• 时间序列聚类是时间序列数据挖掘的一个非常基础 且非常活跃的研究方向,被广泛应用于包括模式识 别、数据分析、图像处理、市场分析等各个领域: 零售数据的季节模式聚类、国家能源消耗聚类分析、 心电图ECG信号聚类分析、股票序列的模式发现以 及个人收入数据的聚类等等(Valk and Pinheiro, 2012, Rodrigues et al., 2008, Costa Santos et al., 2006, Berkhin, 2006, Warren Liao, 2005, Bagnall and Janacek, 2005)。国内外许多 研究者提出了很多时间序列聚类方法,这些方法大 致可以分为三种:基于原始序列、基于特征数据和 基于模型参数(Warren Liao, 2005)。
• 由于基于特征的聚类方法中提取的特征来自序列本 身,且具有特定的含义,所以该聚类方法不仅实现 对序列的降维,又使得聚类结果具有可解释性。这 里,常用的传统的聚类算法有如下几种:划分聚类、 层次聚类和密度聚类等等(Jain, 2010,Chawla and Gionis, 2013, Rodrigues et al., 2008,Labini, 2008, Schikuta, 1996, Kriegel et al., 2011)。
• 聚类是依据事物的某些属性将其聚集成类,使类间 相似性尽量小,类内相似性尽量大。
• 2015.4.19,的深圳举办的新一代信息技术产业发 展高峰论坛上,中国工程院院士李德毅在发言中指 出,尽管目前对于大数据的认知存在挑战,但聚类 将会成为大数据认知的突破口。通过大数据聚类即 时发现价值,要充分认识大数据中的不确定性和价 值的隐蔽性。