当前位置:文档之家› 气象观测站优化模型

气象观测站优化模型

气象观测站的优化模型气象观测站的优化模型摘要:本文进行合理的的进行假设和建立模型,在保证得到降水量信息足够大的情况下减少气象观测站的数目,从而节省开支。

用SPSS软件对12个观测站运用模糊聚类法进行聚类,得到12种聚类方案。

我们运用2R统计量方法得到最优的分类方案,分为7类,即{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。

为了得到最终的优化方案,我们要从12个站中去除5个站,去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。

最终的优化方案:去除5个站分别是7x、8x、10x、11x、12x。

关键字:模糊聚类分析,2R统计量,伪F统计量一、问题重述某地区有12个气象观察站,为了节省开支,计划减少气象观察站的数目。

已知该地区12个气象观测站的位置,以及10年来各站测得的年降水量,要求减少哪些观测站可以使所得的降水量的信息足够大。

二、模型假设与符号说明2.1 模型假设1.表中数据库存在误差,但没有错误;2.在10年中降水量偏差较小的气象站之间具有较大的相似性;3.相近地域的气象特征具有较大的相似性和相关性,它们之间的影响可以近似为一种线性关系;4.该地区的地理特征具有一定的均匀性,而不是表现为复杂多变的地理特征; 5.在距离较远的条件下,由于地形、环境因素而造成不同区域的年降水量相似的可能性很小,可以被忽略。

不同区域的降水量的差异主要与距离有关;6.不考虑其它区域对本地区的影响;7.相似性较大的气象站的降水量服从同一分布,具有相同的期望和方差。

2.2 符号说明k S :表示类k G 中样品的类内离差平方和; k x :表示类k G 的重心;T : 表示所有样品的总离差平方和; 2i R :有i 个样品被聚合成一类;i x :表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i ;)D i x (:表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i 。

三、问题分析题目要求我们减少一些观测站,但获得的降水量的信息要足够大。

我们首先要考虑降水量的信息问题。

对一个观测站而言,减少观测站的个数,得到的信息量也必将减少,但由此可以节省开支,因此最优的结果是既要满足气象观测站的个数比较少,同时得到的信息量足够大。

在这两个互相制约的方面,观测站的个数和信息量之间,应主要考虑信息量,因为信息量减少到一定程度,气象观测站就失去意义了。

因此问题就是求怎样减少观测站的个数,在信息量不少于一定值的条件下使观测站的个数尽量减少。

但是,信息量是一个比较模糊的概念。

为了保证信息量,我们认为在相似性很好的n个站可以去掉n-1个站,让剩下的一个站来反映这n个站的共同特点,而原始数据中的与其他站联系不大的站就保留下来。

由于去掉的站是相关性好的,因此去掉的站可以用剩下的站来表示,而且误差较小。

对于此问题,我们可以利用SPSS软件将12个观测站进行聚类,再用谱系聚类法中R2统计量来评价每次合并时聚类的效果,然后确定聚成几类。

四.模型建立与求解4.1.模型准备4.1.1在SPSS软件中实现聚类,聚类结果如下图:1)聚为11类:{1}、{2}、{3}、{4}、{5}、{6、11}、{7}、{8}、{9}、{10}、{12} 2)聚为10类:{1}、{2}、{3}、{4}、{5、10}、{6、11}、{7}、{8}、{9}、{12} 3)聚为9类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8}、{9}、{12} 4)聚为8类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8、9}、{12} 5)聚为7类:{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9} 6)聚为6类:{1}、{3}、{4、7、12}、{2、5、10}、{6、11}、{8、9} 7)聚为5类:{1}、{4、7、12}、{2、5、10}、{3、6、11}、{8、9} 8)聚为4类:{1}、{2、4、5、7、10、12}、{3、6、11}、{8、9} 9)聚为3类:{1}、{2、4、5、7、10、12}、{3、6、8、9、11} 10)聚为2类:{1}、{2、3、4、5、6、7、8、9、10、11、12} 11)聚为1类:{1、2、3、4、5、6、7、8、9、10、11、12}4.1.2设某谱系水平上类的个数是G 类,k G 中样品的类内离差平方和为:2k ||||)()(S kG i ik i TkG i ixx x x x x kk-=--=∑∑∈∈k S 的值越小,则说明k G 中样品越相似; 在谱系的第G 层共有G 类且定义∑==Gk k S 1G P又以T 记所有样品的总离差平方和:211||||()(∑∑==-=--=ni i i Tni i x x x x x x T ) 其中∑==ni i x n x 11定义TP R G-=12 2R 统计量可用于评价每次合并时的聚类效果。

显然1R 0≤≤,当n 个样品各自成一类时,12=R ;当n 个样品合并成一类时,02=R 。

2R 的值总是随着分类数目的减少而减少,可以从2R 的值的变化看n 个样品分成几类最合适。

4.2模型的求解 4.2.1.根据TP R G -=12求得2i R 2i R 21R 22R 23R 24R 25R 26R10.96520.93330.89240.84760.7982i R 27R 28R 29R 210R 211R 212R0.6277 0.50510.3366.0.15760.13444.2.2根据2R 统计量的变化量来确定分为几类比较合适。

令11,2++-=i i i i R R R )11,2,1(⋅⋅⋅=i1,2+i i R2,12R 3,22R 4,32R 5,42R ,652R ,762R0.030.030.040.040.040.1748 19 09 48 96 03 1,2+i i R,872R ,982R ,1092R 1,1102R2,1112R0.12260.16850.1790.02320.1344由上述表可以看出,前五组中1,2+i i R 的值变化比较小,从第六组数开始,1,2+i i R 发生了显著的变化。

由此可以得出把十二个观测站聚合成7类比较合适。

4.2.3确定最终方案我们已经确定将12个观测站分为7类,即要从中去除五个观测站较好。

分类为{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。

但是应该删去哪五个观测站才比较合理。

{4、7、12}、{5、10}、{6、11}、{8、9}四组数据中,设每组中的变量都服从同一分布。

我们可以比较各变量各自的均值、标准差与总体的均值,标准差的接近程度。

我们认为标准差大的信息量大,因此可以保留。

去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。

(1)计算出各观测站10年降水量的均值,见下表: 记i x 为第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i1x 2x 3x 4x 5x 6x i x 292.02311.77320.32342.28292.22315.157x 8x 9x 10x 11x12xi x343.99303.71312.16299.47310.72391.89(2)计算出各观测站10年降水量的标准差,见下表: 记)D i x (为第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i(3)○1{4,7,12}:比较4x ,7x ,12x 的标准差,由上述去除原则可知去掉标准差较小的7x ,12x 较为合理;○2{5,10}:同理可知去掉标准差较小的10x ; ○3{6,11}:同理可知去掉标准差较小的11x ;○4{8,9}:同理可知去掉标准差较小的8x ; 综上所述,根据原则去除的观测站为7x ,8x ,10x ,11x ,12x 。

4.3模型的检验利用伪F 统计量对上述的模型进行验证:记)()()(G /P 1-G /P -T PSF G G -=n ,其中G P -T 是分为G 个类时的类间平方和,1-G 是其自由度,G P 是分为G 类时的类内平方和,G -n 是其自由度,PSF 是用于描述分为G 个类时的聚类效果。

PSF 值越大表示这些观测可显著分为G 个类。

1x 2x 3x 4x 5x 6x )D i x (100.19680.927108.24463.97594.10394.2007x 8x 9x 10x 11x12x)D i x ( 38.04885.074109.39657.24786.51436.830经过计算可以得到12种聚类的PSF的值,由实际情况可知将12个观测站分为1类和12类的情况显然不可取,故下表只列出分为2至11类的情况:2 3 4 5 6分类数PSF10.301 6.056 2.825 3.143 2.8787 8 9 10 11分类数PSF 3.634 3.301 3.111 2.959 2.816由表可知:分类为2类和3类时PSF的值比其他PSF的值大很多,故忽略不计。

在剩余的8个PSF值中选择相对较大的值即为分类的数目,由表可知,分为7类的PSF显著较大,故分为七类较为合适,同时也验证了上述模型是可取的。

五、模型评价5.1模型优缺点5.1.1模型优点本模型利用模糊聚类分析的方法较成功地解决了气象观察站的优化问题, 方法简练, 道理清晰, 结果可信。

由于本文用了方差分析方法,若多给一些数据, 结果会就更精确。

5.1.2模型缺点(1)在计算2R统计量时,由于数据较多且比较大,用EXCLE来计算有一定的误差,计算量也比较大。

(2)在建立模型时,在建立模型时我们假设同一类的变量服从同一分布,用其标准差和均值的大小来确定最终去除的是哪些变量,结果可能有一定的误差。

参考文献[1] 寿纪麟. 数学建模—方法与范例.西安: 西安交通大学出版社. 1993.[2] 谢季坚、刘承平.模糊数学方法及其应用(第二版). 武汉:华中理工大学出版社. 2000.附录:地点年1x2x3x4x5x6x7x8x9x1x1x1x1981 276.2324.5158.6412.5292.8258.4334.1303.2292.9243.2159.7331.21982 251.6287.3349.5297.4227.8453.6321.5451.0466.2307.5421.1455.11983 192.7433.2289.9366.3466.2239.1357.4219.7245.7411.1357.0353.21984 246.2232.4243.7372.5460.4158.9298.7314.5256.6327.0296.5423.01985 291.7311.0502.4254.0245.6324.8401.0266.5251.3289.9255.4362.11986 466.5158.9223.5425.1251.4321.0315.4317.4246.2277.5304.2410.71987 258.6327.4432.1403.9256.6282.9389.7413.2466.5199.3282.1387.61988 453.4365.5357.6258.1278.8467.2355.2228.5453.6315.6456.3407.21989 158.5271.0410.2344.2250.0360.7376.4179.4159.2342.4331.2377.71990 324.8406.5235.7288.8192.6284.9290.5343.7283.4281.2243.7411.1表1表1各观察站10年的降水量(mm)。

相关主题