2.知识获取2.2 数据离散与特征提取目前,常用的离散化算法有等距离划分法、等频率划分法、基于条件信息熵的方法等。
2.2.1 数据离散(1) 等距离划分算法(Equal Interval Width )。
这种算法是根据用户给定的维数(要离散化的类数),将每个属性划分为属性值距离相等的断点段,每个段中的属性值个数不相等。
假设某个属性的最大值为max x ,最小值为min x ,用户给定的维数为k ,则断点间隔δ=(max x -min x )/k ,得到的断点为min x + iδ,i =0,1,…,k 。
(2) 等频率划分算法(Equal Frequency Interval )。
这种算法首先将某属性值按从小到大的顺序排列,然后根据用户给定的参数k 把这些属性值分成k 段,每一段中属性值的个数相同,则最后的断点集也可相应获得。
(3)Naive Scaler 算法。
Naive Scaler 算法如下: 对于信息表条件属性集C 中的每一个属性a 进行如下过程: 步骤1:按a (x )的值,从小到大对实例x 进行排序,其中U x ∈; 步骤2:从排序后的实例集头部开始扫描,令i x 代表当前实例:如果)()(1+=i i x a x a ,则继续扫描;如果)()(1+=i i x d x d ,则继续扫描,其中d 为决策属性 否则,得到新的断点c ,2/))()((1++=i i x a x a c 。
步骤3:结束。
该算法为“逐步增加断点算法”。
(4)Semi Naive Scaler 算法。
Semi Naive Scaler 算法是对Naive Scaler 算法的一种改进算法,它通过对Naive Scaler 算法获得的每个候选断点进行进一步处理来决定是否采用此断点,具体处理方法如下:假设c 代表属性a 的一个候选断点,i x ,j x 是断点c 的两个相邻的属性值,且c x c x j i ><,;i D 代表i x 所属的等价类所对应的决策中出现频率最高的决策值的集合,如果有两个以上的决策值出现的频率相同,则1>i D ;如果j i D D ⊆或者i j D D ⊆,则不选取该断点;否则,选取该断点。
由此可见,Semi Naive Scaler 算法所得到的断点去掉了Naive Scaler 算法所得到断点中一些不必要的断点,得到了更少的断点数。
(5)自组织竞争人工神经网络(Kohonen )算法。
R图2-1 自组织竞争神经网络结构自组织竞争人工神经网络的结构如图2-1所示。
其中的||ndist ||用来计算网络输入P 和权值1,1IW 的距离,它的输出是1S 维的向量,其中的每个元素是输入向量与权值矩阵各行向量1,1IW i 的距离并取负号,即||ndist || =-||1,1IW i -P || (2.1)竞争神经元的输入1n 是||ndist ||的输出向量与阀值向量1b 的和,当网络的阀值为0,并且输入P 与权值1,1IW 完全相等时,1n 取得最大值0。
而在网络输出的1S 维向量中,只有对应1n 中最大元素1i n 的相应元素1i a 的值为1,其余元素的值均为0,这说明网络中的第i 个神经元在竞争中取得了胜利。
Kohonen 训练规则的目标是调整网络获胜神经元的权值,即网络权值矩阵中的某一个行向量的值。
假设第i 个神经元对第q 个输入向量获胜,那么对应的权值调整公式如下:()()()()()111,11,11,1--+-=q IW q p q IW q IW i i iα (2.2)所以距离某个输入向量最近的权值向量得到的调整使它更加接近于该输入向量。
这样,当网络下次输入相似的向量时,该神经元就很可能在竞争中取得胜利。
如此反复地进行下去,网络中的各神经元就会响应某一部分输入向量,在它们作为输入的时候,网络相应的输出就为1,从而实现了分类的目的。
文献提出了采用Kohonen 网络对属性进行离散化处理的方法,该方法在离散过程中只需指定聚类数目,离散结果就能比较客观地反映实际数据分布情况。
2.2.2 模糊聚类应用模糊聚类分析对事物进行分类,一般按如下四个步骤进行:选择统计指标、数据标准化(正规化)、标定和聚类。
2.2.2.1 选择指标根据实际问题,选择那些具有明确的意义,有较强的分辨力和代表性的特征,作为分类事物的统计指标。
统计指标选择得如何,对分类效果有直接的影响。
2.2.2.2数据标准化(正规化)数据标准化处理方法: [1] 最大最小法:令'1'1'1'ijn i ij ni ij ni ijij x x x x x ===∧-∨∧-=,式中分母是原始纪录矩阵第j 列各元素的最大值与最小值之差。
[2] 正态标准化法:设x 为原始数据,x 为原始数据的平均值,σ为原始数据的标准差,则:σxx x -='。
[3] 归一化法:设'ijx 为原始数据,'1nij i x =∨为原始数据的最大值,则:''ijnijijij xx x ∨=。
或者设t x 为原始采样数据,'t x 为归一化后数据,max x 为原始采样数据最大值,min x 为原始采样数据最小值,k 为放大倍数,则:minmax min'x x x x k x t t --=。
[4] 标准差变换:设论域},,,{21n u u u U =为被分类对象,每个元素又由m 个数据表示,对第i 个元素有),,2,1}(,,,{21n i x x x u im i i i ==,这时原始数据矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x212222111211。
令),,2,1(11m k x n x n i ik k==∑=,()∑=-=ni k ik k x x n s 121,则)),,2,1;,,2,1('m k n i s x x x kkik ik ==-=(2.3)经过变换后,每个变量的均值为0,标准差为1,并可以消除量纲的影响,但不一定在]1,0[区间上。
[5] 极差变换设论域},,,{21n u u u U =为被分类对象,每个元素又由m 个数据表示,对第i个元素有),,2,1}(,,,{21n i x x x u im i i i ==,这时原始数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x212222111211 ),,2,1(}{min }{max }{min '1'1'1'''n k x x x x x ik ni ikni ik ni ik ik =--=≤≤≤≤≤≤ (2.4)经过极差变换后有10''≤≤ik x ,且消除了量纲的影响。
2.2.2.3 标定所谓的标定,就是根据实际情况,按一个准则或某一种方法,给论域U 中的元素两两之间都赋以区间[0,1]内的一个数,称为相似系数,它的大小表征两个元素彼此接近或相似的程度。
标定的方法非常多,如数量积法、夹角余弦法、相关系数法、最大最小法、算术平均最小法、几何平均最小法、绝对值指数法、指数相似系数法、绝对值倒数法、绝对值减数法、非参数法、贴近度法、主观评定法等。
设},,,{21n u u u U =为待分类事物的全体,i u 由一组数据12,,,i i im x x x 来表征,用ij r 来表示i u 与j u 的相似系数,01(,1,2,,)ij r i j n ≤≤=;0ij r =表示i u 与j u 毫无相似之处;1ij r =表示i u 与j u 完全相似;当i j =时,ij r 就是i u 自己与自己的相似程度,恒取1。
ij r 的确定方法,最大最小法有:11()()mikjk k ij mikjk k x x r xx ==∧=∨∑∑。
2.2.2.4 聚类(1)基于模糊等价关系的传递闭包法。
根据标定所得模糊矩阵R ,求出其传递闭包)(R t ,)(R t R =为模糊等价矩阵,然后令λ从1降到0,便可按照需要对U 进行分类,这样的聚类方法称为传递闭包法。
(2)基于模糊相似关系的直接聚类法。
用传递闭包法进行分类,需要先建立U 上的模糊等价矩阵,当矩阵阶数较高时,求等价矩阵的计算量大,这给解决实际问题带来了很多困难。
所谓的直接聚类法是直接利用相似矩阵R 进行聚类:i u 与j u 在λ水平上同类当且仅当在R 的图中,存在一条权重不低于λ的路联结i u 与j u ,直接聚类法包括最大树法和编网法,它们分别是直接聚类法的图形化和表格化。
最大树法的基本步骤:[1] 画出以被分类元素为节点,以相似矩阵R 的元素ij r 为权重的一棵最大树;[2] 取定]1,0[∈λ,砍断权重低于λ的枝,得到一个不连通图,各连通分支便构成了在λ水平上的分类。
编网法的基本步骤:[1] 对给定的模糊相似矩阵R ,取定水平]1,0[∈λ,作截矩阵λR ;[2] 在λR 的主对角线上填入元素的符号,在对角线下方以结点号“*”代替1,而“0”则略去不写;[3] 由结点向主对角线上引经线和纬线,称之为编网,通过经线和纬线能相互连接起来的元素,属于同类,从而实现了分类。
(3) 基于模糊c-划分的模糊聚类法。
这类方法通过将论域U 进行普通c-划分、模糊c-划分等划分方法,从而达到聚类的效果。
2.2.2.5 最佳阀值的确定模糊动态聚类方法的不足在于选择的阀值λ是凭人的经验来确定的,当前最佳阀值的选取主要方法有:F-统计量法和λ变化率法。
λ的变化率法就是选用λ的变化率最大时对应的λ值为最佳阀值。
即以λ的变化率11----=i i ii i n n c λλ (2.5)作为λ的定量选择标准。
其中i 为λ从高到低的聚合序次数;n i 和n i-1分别为第i 和i-1次聚类的元素个数;λi 和λi-1分别为第i 和i-1次聚类时的阀值。
如果)(max j ji c c =则认为第i 次聚类的阀值λi 为最佳阀值。
如果满足要求的阀值较多,以能够得到最少分类的阀值为最佳阀值。
经过真实数据检验后发现,λ的变化率法对一维数据分类效果较好,因此本文中采用λ的变化率法确定最佳阀值,进而确定最佳分类。
2.2.3 基于模糊粗集的特征参数提取算法研究算法采用模糊聚类方法对诊断模型中各因素指标进行先分类、后离散,然后用粗糙集约简方法进行特征参数的提取。
用模糊聚类方法对事物进行分类,一般按四个步骤进行:选择影响因素指标、数据标准化、标定和聚类。
因此,基于模糊粗糙集的特征参数提取算法描述如下:步骤1:选择发动机故障因素指标{X n }和收集整理发动机故障样本数据;从标准化方法,如最大最小法、正态标准化法和归一化法中,选择合适方法对各指标数据进行标准化处理;步骤2:从标定方法,如数量积法、夹角余弦法、相关系数法、最大最小法、算术平均最小法、几何平均最小法、绝对值指数法、指数相似系数法、绝对值倒数法、绝对值减数法、非参数法、贴近度法、主观评定法中,选择一种方法将各指标数据分别进行标定,给论域中的元素两两之间都赋以区间[0,1]内的相似系数,然后求模糊相似矩阵。