异常数据处理方法研究1异常数据处理概述1.1 研究背景近年来,随着海上风力发电技术的日益成熟和陆上风电可开发资源的不断减少,海上风电尤其是近海风电的开发开始加速。
风机是海上风电开发的主要形式,而风机基础结构承担着抵抗海上风机结构的竖向、水平荷载和倾覆力矩的作用,其质量关系到海上风机结构的运行安全。
作为隐蔽工程,其健康状况受到了社会各界的高度重视,如何对风机基础特别是MW级风机基础的安全运行状况监测成为研究领域的热点。
现有的监测技术需要通过设置在风机基础中的数据采集系统自动获取基础的各状态的大量参数,如应力、应变、振动、变形等,采集到的海量原始数据通过通信网络传输到监控中心,经过数据存储,分析处理得到基础的安全运行状况和维修决策等结论。
风机基础监测系统是集结构监测、系统识别及结构评估于一体的综合监测系统,其内容包括几何变形监测、结构响应(应力、应变及振动)监测等。
监测系统的质量主要取决于三方面因素:(1)传感器的灵敏性和精度以及数据传输和采集设备的性能;(2)测点的空间分布,即传感器的最优布置问题;(3)异常数据的分析处理。
从目前电子技术的发展来看,成熟、稳定、高性能的传感器已经被应用与监测系统中,而且合理安排传感器位置,以达到信息采集的最优化,也已经有很多研究成果。
但由于监测信息格式复杂、信息量大,每天数据量甚至能达到十几GB,如果不能有效地对这些数据进行处理,很多异常数据将不能有效辨识,缺失信息将不能有效弥补,而且监测数据的分析必须建立在准确有效的监测数据之上,低精度和异常的监测数据常常影响数值分析的结果,会影响到系统的功能与特性分析,给后续数据处理带来很大的误差,正常信息不能得到有效利用,故有必要对原始采集数据进行处理。
因此监测异常数据处理是三方面中至关重要的一点。
监测系统异常数据处理包含两个方面的内容:(1)异常数据检测,即找出异常信息并确定异常信息所在位置,根据需要将异常数据保存入专门数据库中或直接进行剔除;(2)异常数据修正,即通过插值等方法,参考数据异常点前后的数据,完成该异常数据点的修正,确保采集信息不缺失,保持原始采集数据的连续性。
异常是一个复杂的概念,迄今为止还没有一个统一定义。
Hawkins提出的异常定义被大多数人所接受,其定义为:异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。
异常数据往往代表一种偏差或者新模式的开始,因此对异常数据的识别有时会比正常数据更有价值。
传感器异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式的数据。
异常数据的产生主要是因为以下几种情况而发生的:(1)数据来源中的异常,这类异常中可能隐藏着重要的知识或规律。
对这类异常分析可以获取常规数据不能得到的新的信息,如基础结构损坏等;(2)数据固有变化异常,这类异常通常是自然发生的,如风速的变化、波浪波动等;(3)数据测量误差,这类异常的产生往往是因为测量仪器故障或者网络传输错误,以及噪音的存在引起的,这类异常通常作为噪声而被删除。
与其他工程相比,风机基础安全状况监测发展较为滞后,尚未发现关于风机基础监测数据处理的相关研究成果,其监测异常数据的处理缺乏相应的经验。
可以借鉴类似工程监测数据处理的方法进行研究。
而针对监测数据的种类多、数据海量、频幅分布广等特点,国内学者已经研究了很多处理办法。
其中研究较多的如小波分析、数据挖掘、数据流理论等。
然而,目前的类似工程监测数据处理的方法主要是在离线数据的基础上,在实时监控上还缺乏相应的准确率和智能化。
结合风机基础特点,寻找一种有效的适用于风机基础监测实时数据处理的方法具有十分重要的研究意义和实用价值。
1.2 国内外研究现状综述在国外,研究人员通过对异常挖掘的深入研究,根据对异常存在形式的不同假设,提出了许多异常数据检测算法。
早期的异常数据检测方法是基于统计的方法,这种方法依赖于数据集服从某种标准分布,所以异常数据是基于概率分布来定义的,如Yamanishi等人将正常行为用一个高斯混合模型来进行描述,通过计算数据对象与这个模型的偏离程度来发现异常。
虽然这种基于标准分布的模型,能识别异常现象,但此类方法有很大的局限性,因为往往无法预知数据集是服从哪类标准分布。
为了克服这种缺陷,James P.R、Daniel B.等在概率论H假设检验方法的理论基础上,提出了一种基于某置信度区间标准的异常检测方法,达到这个标准的则为正常数据,反之则为异常。
Knorr 等人于1998年提出了基于距离的异常数据检测算法,他们认为数据是高维空间中的点,异常数据被定义为数据集中与大多数点之间的距离大于某个事先设定的阈值的数据。
F.Abgiulli和C.Pizzuti等学者针对基于距离的异常数据挖掘算法在高维数据中计算时间较长的缺点,将图论中的连通性原理引入到数据之间距离的计算上,极大地降低了计算时间复杂度。
Arning等人提出了基于偏离的方法,这种方法认为:某个数据对象在数据集中的特征明显“偏离”数据集中的其它数据时,这样的数据被认为是异常数据。
Birant D 等提出了一种任意形状的聚类算法并将其应用于异常挖掘中,该算法可以依据数据的非空间属性、空间属性和时态属性来发现聚类簇和异常数据对象。
Breuning等学者定义了局部异常因子的概念,提出了一种基于密度的局部异常点挖掘算法,它是用局部异常因子LOF(Local Outlier Factor)表征数据对象与它的邻居对象的偏离程度,LOF越大则认为该点是异常数据的可能性越大。
ToWel等人在分析神经网络的基础上,根据神经网络的理论提出了基于神经网络的异常数据挖掘算法。
最近提出的比较流行的异常数据挖掘算法是基于核的分类方法,主要思想是将输入的数据通过关系函数映射到一个高维特征空间,通过高维空间的分类超平面,就可以建立一个简单的分类模型,从而区分正常或异常数据。
国内对异常数据挖掘的研究起步较晚,但是近年来在理论研究方面已经取得了许多研究成果。
林士敏对基于距离的异常数据挖掘算法作了改进,提出了基于抽样的近似检测算法;金义富等在Knorr观点的基础上,提出了一种异常约简算法ORDA,该算法以粗糙集理论的属性约简技术为基础,提出了异常数据划分和异常约简思想,以及异常数据关键属性域子空间的分析方法,这种方法可以对挖掘出的异常数据进行有效的分析和解释;重庆大学的邓玉洁,朱庆生提出了基于聚类的异常数据挖掘方法,该方法将离群数据在分类讨论的基础上,定义了平凡离群数据、非平凡离群数据以及噪声数据,然后引入离群属性和离群聚类簇的概念,在此基础上,以现有的异常数据挖掘技术为基础,实现了离群数据的发现。
田江在一类支持向量机的基础上,设计了一种“孤立点——类支持向量机”算法,该算法是一种无监督的异常数据检测算法,通过设定不同的权值,将基于超平面距离定义的异常数据的异常程度和基于概率大小定义的异常程度相结合,通过在特征空间划分距离可疑异常数据的最大间隔超平面来发现异常。
综上所述,国内外针对异常数据产生的原因以及应用领域的不同提出了许多异常数据检测算法。
大量研究发现,基于密度的局部异常数据挖掘算法能够发现其它的异常数据挖掘算法不能发现的异常,即“局部”异常,它更加符合Hawkins 对异常数据的定义。
Breunig等人提出了局部异常因子(Local Outlier Factor,LOF)的概念,通过它来表征一个数据对象的局部异常程度,LOF算法出现后,出现了很多局部异常程度的度量算法。
这些算法适用于静态环境下的数据库,但在工程应用领域,大部分数据库中的数据是随时间动态增加的,新增加的数据可能会影响某些对象的局部异常程度,因此在二次挖掘时,需重新计算所有数据对象的局部异常因子,计算时间复杂度较高,所以这些算法在动态环境中不易实现。
因此,如何在动态环境中提高基于密度的异常数据挖掘算法的时间效率避免大量的重复计算显得尤为重要。
1.3 研究目的和意义本项研究的目的在于结合风机基础特点,在传统异常数据处理方法基础上,研究一种有效的适用于风机基础监测实时数据处理的方法,该方法能够在线辨识异常监测数据并保存,且能够自动修复原数据集,保持器连续性。
本研究的意义在于:(1)实现异常数据在线检测与修正。
目前的监测数据处理方法主要是在离线数据的基础上,在实时监控上还缺乏相应的准确率和智能化。
本研究实现了异常数据在线检测与修正,与传统的异常数据识别方法相比,具有更快的计算时间和更高的还原精度,能够满足数据的在线异常检测与修正要求(2)实时发现异常状况并采取必要处理措施。
对于实时检测出的异常数据进行分析,寻找异常事件原因,并根据产生原因采取应有的处理方式。
对于传感器故障或执行错误导致数据异常情况,应进行剔除处理;有些异常数据是数据变异产生的结果,如对于基础结构监测,发生异常工况或结构损坏在一段时间往往会出现前兆,导致数据异常,如果能够及时捕捉到异常状况的发生并采取相应措施,则能防患于未然,保证结构安全。
(3)提高和完善监测结果准确性,为后续研究奠定基础。
监测结果的准确性建立在高质量的监测数据之上,如果不能有效地辨识与处理异常数据,低精度和异常的监测数据混入正常数据集中,会对监测系统的功能与特性分析产生重大影响,给后续数据处理带来很大的误差,正常数据信息不能有效用于后续的相关研究,利用数据研究得到的结论与实际可能存在较大误差。
1.4主要研究内容本研究主要包括以下3部分内容:(1)对常用异常数据检测与修正方法简要介绍,介绍了常用的数据预处理技术及异常数据检测问题的重要特征,对常用异常数据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景。
(2)几种典型改进算法及其工程应用实例进行分析,。
(3)风机基础监测异常数据的检测和修正。
2异常数据检测与修正方法异常数据检测问题通常包括四个过程:第一是数据的预处理,即通过数字滤波方法去除一些干扰;第二是异常数据的定义,即在数据集中表现出怎样的行为或者模式的数据称为异常数据;第三是选择合适的能够有效发现异常数据的算法,异常数据表现行为不同,异常数据挖掘算法结果也会有所差异;第四是异常数据的修正,即通过异常挖掘将异常数据挖掘出来后,对这部分数据按照原有模式规则进行修正,确保采集信息不缺失,保持采集数据时间序列上的连续性。
本章介绍了常用的数据预处理技术及异常数据检测问题的重要特征,对常用异常数据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景。
2.1数据预处理技术数据是通过各种类型的监测传感器获取的,数据是一种通过间接方法取得事物状态的技术,如将结构相应等参数通过一定的转换技术转变为电信号,然后再将电信号转换为数字化的数据。
由于传感器安装环境的不稳定和数据转换过程掺杂少量的噪声数据等各方面因素的影响,得到的数据会受到一定干扰,影响了最终数据的准确性。