题目:数据的预处理问题摘要关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值一、问题重述1.1背景在数学建模过程中总会遇到大数据问题。
一般而言,在提供的数据中,不可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。
1.2需要解决的问题(1)给出缺失数据的补充算法;(2)给出异常数据的鉴别算法;(3)给出异常数据的修正算法。
二、模型分析2.1问题(1)的分析属性值数据缺失经常发生甚至不可避免。
(一)较为简单的数据缺失(1)平均值填充如果空值为数值型的,就根据该属性在其他所有对象取值的平均值来填充缺失的属性值;如果空值为非数值型的,则根据众数原理,用该属性在其他所有对象的取值次数最多的值(出现频率最高的值)来补齐缺失的属性值。
(2) 热卡填充(就近补齐)对于包含空值的数据集,热卡填充法在完整数据中找到一个与其最相似的数据,用此相似对象的值进行填充。
(3) 删除元组将存在遗漏信息属性值的元组删除。
(二)较为复杂的数据缺失(1)多元线性回归当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。
将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。
2.2问题(2)的分析属性值异常数据鉴别很重要。
我们可以采用异常值t检验的方法比较前后两组数据的平均值,与临界值相2.3问题(3)的分析对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。
(1)分段线性插值将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作()x I n ,它满足()i i n y x I =,且()x I n 在每个小区间[]1,+i i x x 上是线性函数()x I n ()n i ,,1,0⋅⋅⋅=。
()x I n 可以表示为()x I n 有良好的收敛性,即对于[]b a x ,∈有,用 ()x I n 计算x 点的插值时,只用到x 左右的两个节点,计算量与节点个数n 无关。
但n 越大,分段越多,插值误差越小。
实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。
(2) 三次多项式算法插值当用已知的n+1个数据点求出插值多项式后,又获得了新的数据点,要用它连同原有的n+1个数据点一起求出插值多项式,从原已计算出的n 次插值多项式计算出新的n+1次插值多项式很困难,而此算法可以克服这一缺点。
(3)三次样条函数插值[4]数学上将具有一定光滑性的分段多项式称为样条函数。
三次样条函数为:对于[]b a ,上的分划∆:n x x x a <⋅⋅⋅<<=10=b ,则,利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。
三、模型假设1.假设只有因变量存在数据缺失,而自变量不存在缺失。
x以外的其余测定值当做一个总体,并假2.利用t检验法时,将除可疑测定值d设该总体服从正态分布。
四、问题(1)的分析与求解4.1问题分析本题需要对缺失数据进行补充,情况可分为数据集中单一元素缺失及某一元组缺失两种情况。
因此,对数据处理采用同上模型分析2.1的处理方法。
4.2问题处理我们将1960-2015.xls(见附表一)中的数据导入matlab(程序见附录一)。
首先作出散点图。
设定y(X59287)与x1(X54511)、x2(X57494)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。
之后作多元回归,求出系数b0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为:Y=18.014+0.051*x1+0.354*x2。
由matlab编程所得结果图如下4-2所示。
图4-2再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。
若x1=30.4,x2=28.6时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=29.6888。
类似地,若x1=40.6,x2=30.4时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=30.8462,即可补充缺失数据。
五、问题(2)的分析与求解5.1 问题分析本题需要对给定缺失数据进行鉴别,可以采用的方法为t检验检测法。
T检验用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
5.2 问题处理(一)随机产生数据由R系统随机产生数据对其进行缺失数据鉴别,代码如附录四所示,结果图如下5-1,5-2,5-3所示。
图5-1图5-2图5-3示。
图5-4六、问题(3)的分析与求解6.1 问题分析对于问题三,我们采用了分段线性插值,最近方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。
同时也需利用外插法修正最后一个数据的异常。
详见2.3对问题三的处理原理。
具体代码见附录三。
附录一多元线性回归matlab程序clear;data1=xlsread('C:\Users\Lenovo\Desktop\1960-2005.xls');%做出散点图figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),'r');x=[ones(262,1),data1(:,4),data1(:,5)];y=data1(:,6);[b,bint,r,rint,stats]=regress(y,x);xlabel('X54511(x1)');ylabel('X57494(x2)');zlabel('X59287(y)');text(0.1,0.06,0.2,'回归方程式为:y=18.014+0.051x1+0.352x2','color','b');title('x1,x2,y的关系:','color','m');%做残差分析图figure(2)reoplot(r,rint);xlabel('数据');ylabel('残差');title('残差绘制图');%补缺失数据x1=[32.6,31.3];y1=x1*b;x2=[33.2,26.5];y2=x2*b;附录二 t检验spss代码GET DATA/TYPE=XLS/FILE='C:\Users\bwx\Desktop\2.xls'/SHEET=name 'Sheet1'/CELLRANGE=full/READNAMES=on/ASSUMEDSTRWIDTH=32767.EXECUTE.DATASET NAME 数据集2 WINDOW=FRONT.T-TEST/TESTVAL=0/MISSING=ANALYSIS/VARIABLES=y/CRITERIA=CI(.95).附录三插值修正数据matlab代码clear>> T=0:5:65T =0 5 10 15 20 25 30 35 40 45 50 55 60 65>> X=2:5:57X =2 7 12 17 22 27 32 37 42 47 52 57>>F=[3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3,6403.5,6824.7,7328.5,7857.6];>> F1=interp1(T,F,X)F1 =1.0e+003 *Columns 1 through 100.0028 0.3532 1.2621 2.2891 3.4358 4.5769 5.6038 6.3817 6.7745 6.6704Columns 11 through 126.57207.0262>> F1=interp1(T,F,X,'nearest')F1 =1.0e+003 *Columns 1 through 100.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483Columns 11 through 126.4035 6.8247>> F1=interp1(T,F,X,'nearest')%最近方法插值F1 =1.0e+003 *Columns 1 through 100.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483Columns 11 through 126.4035 6.8247>> F1=interp1(T,F,X,'spline')%三次样条方法插值F1 =1.0e+003 *-0.1702 0.3070 1.2560 2.2698 3.4396 4.5896 5.6370 6.4229 6.8593 6.6535 6.4817 7.0441>> F1=interp1(T,F,X,'cubic')%三次多项式方法插值F1 =1.0e+003 *0.0025 0.2232 1.2484 2.2736 3.4365 4.5913 5.6362 6.4362 6.7978 6.6917 6.5077 7.0186附录四随机数据缺失鉴别R语言代码set.seed(2016)> x<-rnorm(100)> summary(x)Min. 1st Qu. Median Mean 3rd Qu. Max.-3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860> summary(x)Min. 1st Qu. Median Mean 3rd Qu. Max.-3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860> # outliers> boxplot.stats(x)#out$stats[1] -1.9338617 -0.4858811 0.1866546 0.7267571 1.9850002$n[1] 100实用文档$conf[1] -0.004942252 0.378251413$out[1] -3.315391 2.685922 -3.055717 2.571203> boxplot.stats(x)$out[1] -3.315391 2.685922 -3.055717 2.571203> boxplot(x)> y<-rnorm(100)> df<-data.frame(x,y)> rm(x,y)> head(df)x y1 -3.31539150 0.76197742 -0.04765067 -0.64044033 0.69720806 0.76456554 0.35979073 0.31319305 0.18644193 0.17095286 0.27493834 -0.8441813> attach(df)> # find the index of outliers from x> (a <-which(x %in% boxplot.stats(x)$out))[1] 1 33 64 74> # find the index of outliers from y> (b <-which(y %in% boxplot.stats(y)$out))[1] 24 25 49 64 74> detach(df)> # outliers in both x and y> (outlier.list<-intersect(a,b))[1] 64 74> plot(df)> points(df[outlier.list,],col="red",pch="+",cex=2.5) 标准文案。