当前位置:文档之家› 多元统计分析 课程设计

多元统计分析 课程设计

多元统计分析课程设计题目:《因子分析在环境污染方面的应用》姓名:王厅厅专业班级:统计学2014级2班学院:数学与系统科学学院时间:2016年1月 3 日目录1.摘要: (1)2.引言: (1)2.1背景 (1)2.2问题的研究意义 (1)2.3方法介绍 (2)3.实证分析 (10)3.1指标 (10)3.2原始数据 (10)3.3数据来源 (13)3.4分析过程: (13)4.结论及建议 (25)5.参考文献 (26)1.摘要:中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。

但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。

关键词:环境污染水污染大气污染因子分析2.引言:2.1背景:我国的环境保护取得了明显的成就,部分地区环境质量有所改善。

但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。

大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。

据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。

2.2问题的研究意义:为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。

2.3方法介绍因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。

为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和信息不完全等问题的产生。

为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

因子分析正是这样一种能够有效降低变量维数的分析方法。

因子分析的步骤:·因子分析的前提条件:要求原有变量之间存在较强的相关关系。

·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。

若存在随机向量)(),,(1p q F F F q ≤'= 及),,(1'=p εεε ,使简记为ε+=AF X ,且 (1)qI F D F E ==)(,0)((标准化);(2)⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==221)(,0)(p D E σσεε (中心化);(3)0),(=F Cov ε(不相关)。

那么,称指标向量X 具有正交因子结构(所有因子相互正交,即ji q j i F F E j i ≠==,,,1,,0)( );称此模型为正交因子模型;称qF F ,,1 为公共因子(对整个X 有影响的公共因素);称pεε,,1 为特殊因子(只对X 的各对应分量有影响的特殊因素);称qp ij a A ⨯=)(为因子载荷矩阵,ija 为第i 个指标在第j 个公共因子上的载荷。

因子载荷矩阵的建立因子分析的最基本任务之一就是建立因子载荷矩阵A 。

对于正交因子模型,有 若X 已标准化,则在绝大多数实际问题中,)(εD 往往都是未知的,由此求出A 是不可能的,这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。

具体方法如下: (1)求出R 的特征根1>≥≥p λλ ,以及相应的单位特征向量),,1(),,(1)(p i u u u ip i i ='=。

(2)建立主成分。

),,()()1(p u u U =是正交矩阵。

(3)构造公共因子,并建立因子载荷矩阵。

Y U UY X 2121-∧∧== (逆问题)令容易验证:X 具有如下正交因子结构:AF X = (Y F U A ----,)完全忽略了特殊因子的影响。

若只取前q 个主成分,且令=A ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡qp q pq q u u u u λλλλ111111,),,(1'=q F F F ,),,(1'=p εεε 则有 其中,q I F D F E ==)(,0)(A A R D F Cov E '-===)(,0),(,0)(εεε。

忽略了不重要的公共因子,由特殊因子解析。

换句话说,用主成分法获得了X 的正交因子分解(近似)中的F A ,。

这里的主要问题是如何确定因子数k 方法一:根据特征值确定因子数。

观察各个特征值,一般取特征值大于1的。

方法二:根据因子的累计方差贡献率确定因子数。

通常选取累计方差贡献率大于0.85时的特征值个数为因子个数k 。

·使因子具有命名解释性实际分析工作中人们总是希望对因子的实际含义有比较清楚的认识。

未解决这个问题,可通过因子旋转的方法使一个变量只在尽可能少的几个因子上有比较高的载荷。

最理想状态下,使某个变量在某个因子上的载荷趋于1,在其他的因子上的载荷趋于0。

这样,一个因子就能够成为某个变量的典型代表,于是因子的实际含义也就清楚了。

因子正交旋转当指标向量X 具有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。

对任一q 阶正交矩阵T ,有 令 则利用正交因子分解的这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵之后,再对其作适当的正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵AT A =*具有更简洁、更理想(近乎分块对角矩阵形式)的结构,公共因子向量F T F '=*具有更明显、更直观的实际意义,正交因子分解ε+=**F A X 更合理、更能反映客观实际。

目前,已经提出了各种因子旋转的方法。

比较常用的一种是方差极大因子轴正交旋转法,简称方差极大法。

先考虑两个公共因子的平面正交旋转。

具有更理想、更简化的结构,即使其各列的因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。

各载荷值可正可负,iX 的依赖程度2i h 也不同,消除其影响:[])2,1;,1(10/22==∈=*j p i h b b i ij ij ,(规格化)正交旋转的目的就是要使新因子载荷矩阵的各列方差之和(总方差) 达到最大。

记则φ可由下式确定:tgg ep p =---=)(2422βαγαβδφ且φ的符号可由e 的符号确定:当公共因子数2>q 时,需要对因子载荷矩阵中的q 列因子载荷向量配两两对旋转,共旋转2)1(2-=q q C q 次。

t s ,列。

先确定φ,后旋转。

仅t s ,列元素改变。

全部列两两配对旋转完毕后,就完成了第一轮旋转。

如果因子载荷矩阵还不能达到要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。

每经一轮旋转,都可算出因子载荷矩阵的总方差。

,,,)2()1()0(V V V 是一非降序列,且有上界(为q 4),故必收敛于某一极限值*V ,*V 即为最大总方差。

实际中,通常旋转到总方差改进不大,即ξ<--)1()(k k V V (给定精度)时,旋转停止。

最后,取ATT AT A A k k ===* 1)(作为最终因子载荷矩阵。

·计算因子得分因子得分是因子分析的最终体现。

在因子分析的实际应用中,当因子确定以后,便可计算各因子在每个样本观测上的具体数值,这些数值称为因子得分,形成的变量称为因子得分变量。

于是,在以后的分析中就可以因子得分变量代替原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题的目的。

**≈F A X ,**-*-*'≈'F A R A X R A 11)()(,U U R '∧=--11,AT A =* ⎥⎦⎤⎢⎣⎡∧=⨯-⨯q q p q q I U A )(210,q q I A R A ⨯*-*==' 1)(3.实证分析 3.1指标:废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量 3.2原始数据:3.3数据来源:《中国环境年鉴》3.4分析过程:利用SPSS软件进行分析,首先录入数据,然后一次进行如下处理:一、考察原有变量是否适合进行因子分析首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析。

这里借助变量的相关系数矩阵进行分析。

表一是原有变量的相关系数矩阵。

可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。

表一相关性矩阵废水排放总量单位:亿吨化学需氧量排放总量单位:万吨氨氮排放总量单位:万吨二氧化硫排放总量单位:万吨氮氧化物排放总量单位:万吨烟尘灰尘排放总量单位:万吨相关废水排放总量单位:亿吨1.000 .762 .913 .424 .612 .277化学需氧量排放总量单位:万吨.762 1.000 .906 .647 .773 .592氨氮排放总量单位:万吨.913 .906 1.000 .519 .650 .394二氧化硫排.424 .647 .519 1.000 .903 .842 放总量单位:万吨氮氧化物排放总量.612 .773 .650 .903 1.000 .864 单位:万吨烟尘灰尘排放总量单.277 .592 .394 .842 .864 1.000 位:万吨二、提取因子这里首先进行尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析提取因子并选取大于1的特征值,分析结果如表2所示。

表二Communalities起始撷取废水排放总量单位:亿吨 1.000 .923化学需氧量排放总量单位:1.000 .892万吨氨氮排放总量单位:万吨 1.000 .971二氧化硫排放总量单位:万1.000 .908吨氮氧化物排放总量单位:万1.000 .953吨烟尘灰尘排放总量单位:万吨 1.000 .931撷取方法:主体元件分析。

表二显示了在指定提取2个变量共同度数据。

第一列数据是因子分析初始解下的变量共同度,它表明:如果对原有7个变量采用主成分分析方法提取所有特征值,那么原有变量的所有方差都可被解释,变量的共同度均1.事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可能提取全部特征值。

第二列数据是在按指定提取条件提取特征值时的变量共同度。

可以看到所有变量的绝大部分信息可被因子解释,信息丢失少。

因此,本次因子提取的总体效果比较理想。

表三表三中,第一列是因子编号,以后三列组成一组,每组中数据项的含义依次是特征值、方差贡献率和累计方差贡献率。

前两个因子解释原有变量总方差的93%,总体上,原有变量的信息丢失较少,因子分析效果较理想。

表四表四中,横坐标为因子数目,纵坐标是特征值。

可以看到:第一个因子特征值很高,对解释原有变量的贡献最大;第二个以后的因子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是合适的。

相关主题