西北太平洋热带气旋问题摘要随着社会经济的不断发展,自然灾害带给人类生活的影响也在扩大,热带气旋作为主要自然灾害之一,一直是人类重点研究关注的对象。
本文从热带气旋信息基础要素之间相关性关系,以及构建热带气旋发生频率模型和对热带气旋等级标准的评估与优化展开讨论。
针对问题一,基于西北太平洋热带气旋基础信息数据,利用相关性和显著性指标分析各信息要素间相关性水平,分析出各个基础信息要素之间是否存在的相关关系,以及其相关关系程度。
针对问题二,根据所给数据中历年台风发生次数,建立台风发生次数模型,并结合最小二乘法拟合图像,在此基础上进行模型优化,使得模型拟合度最高。
经分析近年来热带气旋发生频率整体呈震荡趋势,在最近三年有所上升,并根据此模型预测2014年发生频率为21次。
针对问题三,经过问题分析我们发现国家等级划分标准过于单一,无法准确评估热带气旋,因此本文引进多项指标作为评定标准。
首先将热带气旋各信息要素进行聚类,从而简化信息要素,再根据简化后各要素对数据进行聚类,依据各类的指标,将其划为四类,接着对所划分标准与相关参考资料进行比对和考证,说明划分标准的可靠性。
关键词:相关性、曲线拟合、聚类1.问题的重述20世纪是人类历史上物质文明发展最快的世纪,科学技术取得了巨大的进展,数值天气预报的成功也重要展现了社会和科技的进步。
但是,经济越发展自然灾害造成的损失就越大,21世纪人类仍将面临频繁发生的自然灾害的威胁,热带气旋是世界上主要的自然灾害之一。
在我国, 气象灾害频数占整个自然灾害的70%以上,造成的经济损失占国内生产总值的3%-6%,这一比率比一般发达国家高,而台风灾害在气象灾害中占有相当一部分。
附录1给出了2000-2013年的西北太平洋热带气旋基础信息,附录2给出了2006年修订的热带气旋等级国家标准。
试利用附录1给出的2000-2013年的西北太平洋热带气旋基础信息分析如下问题:1)西北太平洋热带气旋基础信息要素之间相关吗?若相关,关系如何?2)近年来西北太平洋热带气旋发生频率在升高吗?2014年西北太平洋上会发生多少个热带气旋?3)2006年修订的热带气旋等级国家标准还合适吗?若不合适,你认为应该怎样调整?2.模型的假设(1)假设附录所给数据真实可靠;(2)假设数据足够精确,能够放映出改热带气旋的各项指标;(3)假设附录中测量的数据有足够的依据。
3.符号说明符号含义x年份y台风发生次数4.问题的分析4.1 问题一的分析问题一是在给定326条西北太平洋热带气旋基础信息的基本数据,和11项基础信息下的不同数据的分析,寻找基础信息要素之间是否存在相关关系,以及相关关系的程度。
其关键在于分析各个基础要素之间的相关性和显著性。
因此,本文拟用相关性和显著性这两个指标对各个因素逐一分析,找出存在的相关关系并求出相关关系程度。
4.2 问题二的分析问题要求根据所给数据中历年台风次数判断近年来台风次数的趋势,并预测2014年的台风次数,即需要建立与年份相关的台风次数预测模型。
因此,建立以年份为x轴与以台风次数为y轴坐标轴,在此坐标轴上画出年份与台风次数的散点图,观察并考虑采用最小二乘法拟合图像,即观测值与预测值的差值平方和达到最小。
在次基础上改进模型,判断比较回归平方和与总离差平方和的比值2R。
2R介于0和1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合度比较高。
4.3 问题三的分析本文问题三在于讨论2006年修订的热带气旋等级国家标准是否合适,经过问题一的分析,我们发现,国家制定的等级标准评定标准过于单一,只以最大风速为参考标准,因此本文考虑引进多项因素作为评定标准,从而更加客观的评定热带气旋等级,此题首先根据问题一求解结果,利用SPSS软件将热带气旋的基础信息要素进行聚类,从而简化信息要素,再利用简化后信息要素将数据资料进行聚类,从而分为三类,并根据每类特点制定等级划分标准,再通过历史文献资料的比对考证,证明划分标准的可靠性。
5.模型的建立与求解5.1 问题一模型的建立与求解Step1:Pearson相关系数Pearson相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。
当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson 简单相关系数值域等级的解释(见表 1 )表 1 相关系数和值域等级系数值域等级解释0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关0.0-0.2极弱相关或无相关Pearson 计算公式:i i cov(X ,Y )cov(X ,X )cov(Y ,Y )i i i i i R =展开得:2222=N X ()()i i i ii i i i i N X Y X Y R X N Y Y -⎡⎤⎡⎤--⎣⎦⎣⎦∑∑∑∑∑∑∑其中i X 、i Y 代表各个基础信息要素,i R 代表各个基础信息要素之间的Pearson系数。
Step2:显著性水平P 检验显著性的含义是指两个群体的态度之间的任何差异是由于系统因素而不是偶然因素的影响。
我们假定控制了可能影响两个群体之间的差异的所有其他因素,因此,余下的解释就是我们所推断的因素,而这个因素不能够100%保证,所以有一定的概率值,叫显著性水平。
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用α表示。
显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。
它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。
P 值的理解:假设检验是推断统计中的一项重要内容。
用SAS 、SPSS 等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value ,Probability ,Pr),P 值是进行检验决策的另一个依据。
P 值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著,P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。
运用显著性水平P检验来分析各个基础信息要素之间具有相关关系的可能性大小。
Step3:模型求解依据上述原理结合附录1中数据,将不完整数据补全空数据以0代替,寿命统一换算为小时单位,经过SPSS程序依次各个基础信息要素之间的相关性,见表2如下:表 2 各个基础信息要素之间的相关性和显著性相关性最低气圧(hPa) 最大风速(kt)暴风域最大半径(nm)强风域最大半径(nm)强风域最大直径(nm)移动距离(km)寿命(h)平均速度(km/h)维度幅度经度幅度最低气圧(hPa) 1 -.978**-.784**-.502**-.549**-.721**-.753**.067 -.602**-.571**最大风速(kt) -.978** 1 .778**.467**.511**.727**.754**-.045 .600**.586**暴风域最大半径-.784**.778** 1 .711**.736**.690**.647**.019 .628**.510**强风域最大半径-.502**.467**.711** 1 .965**.559**.493**.073 .568**.340**强风域最大直径-.549**.511**.736**.965** 1 .587**.538**.044 .575**.375**移动距离(km) -.721**.727**.690**.559**.587** 1 .848**.231**.825**.771**寿命(h)-.753**.754**.647**.493**.538**.848** 1 -.213**.656**.681**平均速度(km/h) .067 -.045 .019 .073 .044 .231**-.213** 1 .253**.163**维度幅度-.602**.600**.628**.568**.575**.825**.656**.253** 1 .380**经度幅度-.571**.586**.510**.340**.375**.771**.681**.163**.380** 1 **. 在 .01 水平(双侧)上显著相关。
分析上述数据可以看出最低气压与其他九种基本信息要素呈负相关,其中与最大风速、暴风区域最大半径、强风区域最大直径、强风区域最大半径、移动距离、寿命和经纬度相关性较大。
最大风速除与最低气压和平均速度呈负相关,与其他因素呈正相关,除与平均速度外与其他因素显著相关。
暴风域最大半径除与最低气压呈负相关,与其他因素呈正相关,除与平均速度外与其他因素显著相关。
强风区域最大半径除与最低气压呈负相关,与其他因素呈正相关,除与平均速度外与其他因素显著相关。
强风区域最大直径除与最低气压呈负相关,与其他因素呈正相关,除与平年份与台风次数的散点图05101520253035199820002002200420062008201020122014年份台风次数次数均速度外与其他因素显著相关。
移动距离除与最低气压呈负相关,与其他因素呈正相关,与其他因素显著相关。
寿命除与最低气压和平均速度呈负相关,与其他因素呈正相关,与其他因素显著相关。
平均速度除与最大风速和寿命呈负相关,与其他因素呈正相关,与移动距离、寿命和经纬度显著相关。
维度幅度除与最低气压呈负相关,与其他因素呈正相关,与其他因素显著相关。
经度幅度除与最低气压呈负相关,与其他因素呈正相关,与其他因素显著相关。
5.2 问题二模型的建立与求解Step1:建立以年份为x 轴与以台风次数为y 轴坐标轴,在此坐标轴上画出年份与台风次数的散点图图 1观察易知,台风次数呈上下震荡趋势,因此,考虑采用三角函数拟合图像。
Step2:首先考虑采用较为简便的三角函数拟合,因此选择函数()()()0111 f x a a cos x b sin x ωω=++利用MATLAB 曲线拟合工具箱,可得到拟合图像19901995200020052010201520201416182022242628xyy vs. xuntitled fit 119901995200020052010201520201416182022242628xyy vs. xuntitled fit 1图 2 ()1f x 的函数图像其中()()()1 24.340.4282 2.456 2.681 2.456f x cos x sin x =--,20.2244R = 因此,可知回归平方和与总离差平方和的比值2R 较小,拟合效果较差,不符合问题所需的预测模型要求。