实验三(数据处理)姓名:郜庆科学号:2012303200109一、实验过程(描述实验的主要步骤,列出主要方法)【1】、回归分析利用Excel中自带的回归分析工具对数据进行回归分析,得到结果如表所示:回归统计Multiple R 0.999999R Square 0.999998Adjusted R Square 0.999996标准误差 1.59E-05观测值20方差分析df SS MS F Significance F回归分析7 0.001234 0.000176 695553.4 1.12E-32残差12 3.04E-09 2.53E-10总计19 0.001234Coefficients 标准误差t Stat P-value Lower 95%Upper95%下限95.0%上限95.0%Intercept 0.000105 8.39E-05 1.249767 0.23521 -7.8E-05 0.000288 -7.8E-05 0.000288 X Variable 1 -2E-06 1.82E-06 -1.11978 0.284721 -6E-06 1.93E-06 -6E-06 1.93E-06 X Variable 2 -5.43968 0.149242 -36.4486 1.17E-13 -5.76485 -5.1145 -5.76485 -5.1145 X Variable 3 30.00856 0.835847 35.90199 1.39E-13 28.18741 31.82972 28.18741 31.82972 X Variable 4 -67.1698 1.881489 -35.7003 1.49E-13 -71.2692 -63.0704 -71.2692 -63.0704 X Variable 5 77.08559 2.136489 36.08049 1.32E-13 72.43058 81.7406 72.43058 81.7406 X Variable 6 -46.8141 1.298246 -36.0595 1.32E-13 -49.6427 -43.9854 -49.6427 -43.9854 X Variable 7 13.32797 0.35499 37.54468 8.19E-14 12.55451 14.10143 12.55451 14.10143 从回归统计表中可以得到其相关系数R值为0.999999,所以表明自变量与因变量之间有很大的相关性。
R平方为复决定系数,上述复相关系数R的平方。
用来说明自变量解释因变量y变差的程度,以说明因变量y的拟合效果。
此案例中的复决定系数为0.99998,表明用用自变量可解释因变量变差的99.98%,该值越大,模型拟合效果很好。
调整后的复决定系数R2,该值为0.999996,说明自变量能说明因变量y的99.99%,因变量y的0.0001%要由其他因素来解释。
方差分析表中的Significance F(F显著性统计量)的P值为1.12E-32,明显小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0。
在回归参数表中,可以得到各个X的回归系数和相关性等。
【2】、使用Excel的作图功能绘制冠层的光谱曲线,波长作为x轴,反射率作为y轴。
由于数据样本过于繁多,所以只挑选了前5个样本进行显示,如图所示,很显然,在1427-1613波段存在较明显的区别,所以我们取这个区间范围的数据进行重新显示,由于原始波段从350开始,所以这里的波段应该是1777-1963,其显示结果如下所示:【3】、作物叶绿素含量和N含量的相关性分析使用数据分析中的相关系数分析,对叶绿素和N的两列数据进行相关系数分析,分析界面如下:得到结果如下所示:列1 列2列1 1列2 0.958487 1得到结果说明叶绿素和N之间存在较大的相关性,相关系数为0.958487。
【4】、叶绿素、N含量和各波段反射率的相关性分析此次方法与上述相关性分析方法相同,不过需要在很多个数据前加上一列值为叶绿素值(或N 值),在分析时,只需要看第一列的相关系数就可以确定与各个波段的相关系数了,其相关系数结果如下所示:相关系数分布:这里只需要观察第一列数据的结果就可以了,结果前部分大部分波段为负相关且值普遍偏小,后半部分为正相关,且值略微偏大。
说明叶绿素受后边的波段影响略大,大概集中在2000-2500左右。
N元素的计算方法与叶绿素的计算方法相同,只需要将第一列的数据改为N值即可,这里省略N的计算过程。
只给出N的第一列的分布情况:【5】、选择波段,建立叶绿素、N的光谱估计的多元回归模型利用相关系数的分布,我们可以找出与叶绿素相关系数最大的几个值以建立关于叶绿素的多元回归模型,由于Excel中只允许有16个变量的回归,所以应该挑选小于16个相关系数绝对值最大的值来代表这多个个变量。
这里我们挑选5个波段,如下所示:列2042 列2043 列2044 列2047 列2048相关系数0.074668 0.074563 0.074086 0.074409 0.074172 由于波段数从350开始,所以其波段号依次是1698,1697,1696,1693,1692,将这几个波段的250个数据分别添加到叶绿素值跟前以便进行回归分析,如下图所示:然后以叶绿素值为因变量,以这5个波段的值为自变量,进行回归分析,得到结果如下所示:回归统计Multiple R 0.297483R Square 0.088496Adjusted R Square 0.069818标准误差 4.347325观测值250方差分析df SS MS F SignificanceF回归分析 5 447.7121 89.54242 4.737887 0.000377残差244 4611.412 18.89923总计249 5059.125Coefficients 标准误差t Stat P-value Lower 95% Upper 95% 下限上限95.0% 95.0%Intercept 39.80796 0.494261 80.54038 9E-178 38.8344 40.78153 38.8344 40.78153 X Variable 1 -11162.4 3264.206 -3.41964 0.000735 -17592 -4732.79 -17592 -4732.79 X Variable 2 17134.03 4571.746 3.747808 0.000223 8128.903 26139.15 8128.903 26139.15 X Variable 3 -4555.39 5692.617 -0.80023 0.424357 -15768.3 6657.553 -15768.3 6657.553 X Variable 4 -9240.94 7696.799 -1.20062 0.231062 -24401.6 5919.702 -24401.6 5919.702 X Variable 5 7820.577 3657.646 2.138145 0.033499 615.9874 15025.17 615.9874 15025.17 得到的回归分析的公式为:Y=-11162.4*x1+17134.03*x2-4555.39*x3-9240.948x4+7820.577*x5+39.80796其结果与叶绿素的相关系数分布结果大概相同。
针对N的分布其值大致相同,选取波段也相同,得到的结果如下所示:回归统计Multiple R 0.30383R Square 0.092313Adjusted R Square 0.073713标准误差0.322008观测值250方差分析df SS MS F Significance F回归分析 5 2.573054 0.514611 4.963016 0.00024残差244 25.30015 0.103689总计249 27.8732Coefficients 标准误差t Stat P-value Lower 95%Upper95%下限95.0%上限95.0%Intercept 2.766465 0.03661 75.56564 2.8E-171 2.694353 2.838577 2.694353 2.838577 X Variable 1 -849.185 241.781 -3.51221 0.000529 -1325.43 -372.941 -1325.43 -372.941 X Variable 2 1309.747 338.631 3.867771 0.000141 642.7341 1976.76 642.7341 1976.76 X Variable 3 -385.861 421.6543 -0.91511 0.361036 -1216.41 444.6859 -1216.41 444.6859 X Variable 4 -650.184 570.1048 -1.14046 0.255211 -1773.14 472.7706 -1773.14 472.7706 X Variable 5 575.2527 270.9232 2.123305 0.034735 41.60602 1108.899 41.60602 1108.899 其回归分析的公式如下所示:Y=-849.185*x1+1309.747*x2-385.861*x3-650.184*x4+575.2527*x5+2.766465二、实验数据(描述数据名称、类型和主要指标等)本次的实验数据rice2014.xls中是水稻的生理生化参数数据和冠层光谱反射率数据。
在Excel中打开rice2014.xls,该文件包括2个sheet,第一个sheet命名为“生理指标”,包括250个样本的编号、叶绿素、N数据;第二个sheet命名为“光谱数据”,包括250个样本的编号、波长及对应的冠层反射率数据。
三、问题分析(完成实验报告中的问题分析,结果用图、表等形式,详细地说明结果和分析过程)【1】、首先对250 个样本数据中,随机选取其中2/3 (160个)的样本,建立叶绿素和N 的特征光谱估计模型。
本题目的计算过程与上述得到回归公式的过程大致相同,不过上述选取了250个样本作为回归的样本,本次回归只需要选取前160个作为样本就可以了,其回归结果如下所示:Intercept X Variable 1 X Variable 2 X Variable 3 X Variable 4 X Variable 5 39.65405689 -7230.42071 9479.023977 -74.96287112 -6197.28 4029.818983Y=-7230.42071*x1+9479.023977*x2-74.96287112*x3-6197.28*x4+4029.818983*x5+39.65405689【2】、利用上述公式,对剩下的91个样本进行预测,并求得其残差结果如下所示:上述公式在前边的预测结果比较好,在后续的波段中预测结果并不是很好,这很可能与中间波段出现异常有关。