当前位置:文档之家› 数据挖掘论文

数据挖掘论文

工程设计中的实验数据挖掘摘要关键词:一、问题重述1.1问题背景工程设计的水平和能力是一个国家和地区工业创新能力和竞争能力的决定性因素之一。

近些年来,随着我国各项工程的蓬勃发展,使得工程在立项、可研、方案、施工、调测直至开工这些方面都与实验数据挖掘密不可分。

数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。

1.2问题提出在工业设计中,采集到了如附表中的数据,该数据是可能对19个因变量有影响的所有可以自变量的数据,第19号变量受到了18个自变量的影响(有的可能没有影响)。

建立数学模型分析研究下面的问题:要求1:提出的自变量中有的是互相相关的,过多的自变量个数和小样本数给数据分析带来了很大的困难,请辨别出因为相关性需要删除的自变量;要求2:在采集数据的过程中,每一个样本值(每一列)由于人为因素或者是测量因素导致得到的数据误差很大,是不可信的。

请从中挑出一个不可信的样本值;要求3:建立一种以上模型,得到因变量与自变量的关系,并统计这些模型的计算值与理论值的误差平方和;要求4:从影响因素中找出排在前五位的因素,并分析影响规律基于所做的以上分析,给出制造单位你的建议。

二、问题的分析本题主要任务是:根据所给自变量之间的相关性,删除一部分自变量,并分析分析每一组样本值,从中挑选出一组不可信的样本值。

通过建立因变量与自变量的关系模型,统计计算值与理论值的误差平方和,再根据影响因素,找出排在前五位的因素,进而得到分析结果,提出意见。

2.1问题一分析2.2问题二分析2.3问题三分析2.4问题四分析三、基本假设1、;2、;3、;4、。

四、符号说明五、模型的建立与求解5.1问题一的模型与求解5.1.1模型的分析在分析自变量与因变量之间的关系时,为了避免遗漏某些重要因素,往往一开始选取自变量指标时,尽可能多地考虑所有的相关因素。

而题意中给出了18个自变量,过多的自变量,且变量间的相关度高,这样的数据会给系统分析与建模带来很大不便。

而且高相关度的自变量对因变量的影响具有一致性,因此,我们可以通过研究变量间的相似关系,按照变量的相似关系把他们聚合成若干类,选取每类中的一个变量,进而达到删除过多自变量的目的。

5.1.2模型的建立与求解1)多元分析的方法选用:根据上述模型分析,我们需要将18个自变量进行分类,因此,我们选用聚类分析法[1]进行定量的数据分析。

聚类分析法是对多个样本(或指标)进行定量分类的一种多元统计分析方法。

其主要分为两类:对样本进行分类称为Q类聚类分析,对指标进行分类称为R型聚类分析。

根据题意得,所分析的数据是以每项指标为单位进行删除,因此,我们选用R型聚类分析法。

2)变量数学化:设第19个因变量为y,18个自变量为x i(i=1,2,⋯,18)。

3)计算变量相似性度量[1]:在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有:●相关系数:记变量x j的取值(x1j,x2j,⋯,x nj)T∈R n (j=1,2,⋯,18,n=13)。

任意的选取两个变量x j与x k,将它们的相关系数r jk作为相似性度量,即r jk=()()1nij j ik kix x x x=--∑()()122211n nij j ik ki ix x x x==⎡⎤--⎢⎥⎢⎥⎣⎦∑∑(1)●夹角余弦:直接利用两个变量x j与x k的夹角余弦r j k来定义它们的相似性度量,即r j k =1nij iki x x=∑()()122211n n ij ik i i x x ==⎛⎫ ⎪⎝⎭∑∑ (2)其中以上两种相似度量都可以表示:|r j k |越接近1,x j 与x k 越相关或越相似。

|r jk |越接近0,x j 与x k 的相似性越弱。

本文选取相关系数矩阵计算。

通过SPSS 软件计算得出各变量之间的相关系数表如下表1所示。

表中为变量x 1到x 10的相关性系数值,其他8种见附录一。

4) 变量的聚类:在变量聚类的问题中,常用的方法有最长距离法、最短距离法等。

本文采用采用最短距离法计算类间的相似性度量。

最短距离法定义两类变量的距离为R (G 1,G 2)={}12min j k jk x G x G d ∈∈ (3)其中:d jk =1−|r jk |或d jk 2=1−r jk 2,这时,R (G 1,G 2)与两类中相似性最大的两个变量间的相似性度量值有关。

运用Matlab 软件编程绘制聚类树型下图1所示。

图1 指数聚类树型图根据文献[2]得知,相关系数可划分为三个级:|ρXY|<0.4为低度线性相关;0.4≤|ρXY|<0.7为显著性相关;0.7≤|ρXY|<1为高度线性相关。

我们根据高度相关关系进行聚类分析,从上图1可以看出,x1和x4先聚为一类,x5和x10聚为一类后与x3聚为一类,之后x1和x4又与x6,x15聚为一类,x11,x12聚为一类,最后x1,x4,x6,x15和x8聚为一类。

被划分到一类的变量之间具有高的相关度,即可以认为他们对因变量的变化影响是一致的,因此只保留同一类中的一个自变量即可。

即从类(x1,x4,x6,x8,x15),类(x3,x5,x10),类(x11,x12)中,保留各自类中的一个自变量。

5)选取类中自变量:为了达到被选取的指标能够反映因变量不同的性质(即各自指标之间相关性较低),因此在保证被划分到一类的变量之间具有较高的相关性的同时,需要使得该类中的变量与不属于该类的所有变量之间相关度均较低。

下面建立模型解决类中自变量选取问题。

假设指标x1,x2,⋯,x18∈全集U,聚类得到集合为R,在全集U中任意的选取两个指标x i、x j,需要分析类中变量与类外中变量的关系,则有约束条件:x i∈R,x j∉R为使该类中的变量与不属于该类的所有变量之间相关度均较低,假设x i与x j 的相关系数为r ij,则有目标函数:(4)min∑r ij2j综上,可建立如下模型:min∑r ij2js.t.{x i∈R,x j∉Rx i∈U,x j∈U(5)利用Matlab软件,对上述模型进行求解。

对于类(x1,x4,x6,x8,x15)的求解结果见下表2所示。

表2 第一类的求解结果与上述解法相同,求得第二类类(x3,x5,x10),第三类(x11,x12)的结果见下表3、下表4所示。

表3 第二类的求解结果综上所述,我们得到需要删除的自变量有:x1、x4、x5、x6、x8、x10、x12。

5.2问题二的模型与求解5.3.1模型的分析我们在分析数据时,为了反映各个指标的概貌而引入了平均值。

在此我们暂假设各指标的平均值近似等于各指标的真实值。

从采集数据中确定一组不可信的样本值实际上是分析每组样本值各指标与其平均值相差的距离。

若各指标的相差距离值均较小时,我们可以认为该组的样本值较为可信,若出现相差距离值均较大时,这样会导致累积误差[2],因此可以认为该组的样本值不可信。

由此,可以建立比较平均值的偏离程度模型进行检验。

5.3.2 模型的准备1) 自变量编号的重新设定为了便于模型表述,将所留下的自变量按照标号的大小顺序,分别重新编号为1-11。

具体对应关系见表5所示。

表5 自变量编号对应表2) 自变量的正态分布检验由于正态分布反映随着与平均水平的偏离程度的增大,事件发生的概率先是缓慢下降,然后比较急剧地下降,最后渐渐趋于零的一种统计规律。

因此为了验证引入的平均值相差模型的正确性,我们对各个指标的样本值进行正态分布检验。

通过SPSS 软件计算得到检验结果如下图2所示(下图只有四个指标的正态分布检验图,其他七种见附表二):图2 正态分布检验图通过SPSS 软件对指标样本值进行正态分布检验时,得出显著性水平均大于0.05,均显示接受原假设,说明指标的样本值均服从正态分布。

因此,我们可以通过建立比较平均值的偏离程度模型进行不可信样本值筛选。

5.3.3 模型的建立与求解1) 数据无量纲化处理各个指标之间由于计量单位和数量级尽不相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数据进行无量纲化处理,来解决各指标数值不可综合性问题。

其中无量纲化的方法有四大类:极值化方法、标准化方法、均值化方法、标准差化方法。

根据参考文献[3]、[4]得知,在多变量综合分析中,当原始数据呈正态分布的情况下,利用标准化方法进行数据无量纲化处理是较为合理的。

在上述的模型准备中,我们得到11种指标的样本值均符合正态分布,因此,本问题可以具有采用标准化方法的合理性。

标准化方法[1]的基本思想是对数据同时进行中心化压缩处理,即x ij ∗=x ij −x̅i s i(i =1,2,⋯,11,j =1,2,⋯,13) (6) 其中x̅i =11n ij j x n =∑,s i =√()2111n ij i j x x n =--∑,x ij 表示第i 指标的第j 组样本值,x ij ∗表示x ij 标准化后处理得到的值。

通过Matlab 软件编程得到标准化处理后的数据,见下表5所示。

2) 建立比较平均值的偏离程度模型为了比较每一组样本值偏离平均值的程度,就需要计算在该组中所有指标与平均值偏差的平方和S ,由于对数据进行标准化处理后,使得每一项指标的平均值为0,因此第j组样本值的平方和表达式为:S j=∑x ij211i=1(7)其中i=1,2,⋯,11,j=1,2,⋯,13。

由于定义偏差程度最大的一组样本即是应被挑出的不可信的样本值(即偏差平方和最大的一组),因此通过计算得到结果见下表6所示:通过上表得出,第13组样本的偏差平方和最大,综上所述,我们认为不可信的样本组即是第13组样本。

5.3问题三的模型与求解5.4.1模型的分析根据题意建立模型得到因变量与自变量的关系,实际上是建立模型去寻找因变量与自变量之间的函数关系。

由于因变量是由多个自变量得到的一组数据,,因此该问题可以转化为多元曲线拟合问题。

通过建立因变量与自变量之间的回归模型,进而得到两者关系,并求得计算值与理论值的误差平方和。

5.4.2模型的建立与求解1)建立多元线性回归模型为了简化模型,我们假设因变量与自变量之间是线性关系。

根据题意,因变量受多个自变量影响,且又由问题一中11个自变量之间相关性较弱的结论,可以初步建立多元线性回归模型。

假设β0,β1,β2,⋯,β11为与自变量x1,x2,⋯,x11无关的未知参数,即称为回归系数。

相关主题