当前位置:文档之家› 应用统计学读书报告(华电)

应用统计学读书报告(华电)

读书报告--读《Regional development assessment:A structural equation approach》一、文章的总体结构文章分为六个部分:第一部分为介绍。

主要介绍为对区域发展进行评估对欧盟的重要性,对目前各种区域评估方法的评价以及对评估方法提出的建议。

第二部分是描述数据,以及进行必要的描述性统计分析。

第三部分是统计方法和估计方法介绍。

第四部分是模型的规范性和结构模型的估计结果,同时也介绍了计算结构方程模型中潜变量得分的工具。

第五部分介绍了聚类分析的结果。

最后一部分为文章的总结。

二、文中对斯洛文尼亚和克罗地亚两国数据进行统计分析的过程。

本文旨在通过对斯洛文尼亚9个发展指标和克罗地亚11个发展指标的分析来对两国的发展状况进行评估,主要使用了结构方程,聚类分析及探索性因子分析等多元统计分析方法。

文中提出了基于结构方称的模型,这个结构模型使用各种发展区域当作潜变量建模,而且通过结构模型能够建立因果递归和非因果递归模型,同时,进行评估和拟合统计量的分析。

文中对两国发展指标的分析主要分为四个部分:1、对两国数据进行处理。

包括对两国原始数据使用塔方检验进行正态检测,根据检验结果对原始数据中其分布不是正态分布的转化为正态分布数据。

2、基于潜变量LISREL建立区域发展结构方程3、对模型的分析及估计结果4、聚类分析(一)对两国原始数据的预处理文章中数据的预处理方法是:首先对斯洛文尼亚和克罗地亚两国的原始数据进行正态性测试,结果显示除斯洛文尼亚的人均收入和就业率除外,两国其他指标均不服从正态分布。

因为文中对两国变量的分析希望使用高斯最大似然法进行分析,因而需要所分析的变量大致呈正态分布。

因而需要将两国原始数据中其分布不是正态分布的转化为正态分布数据,并通过塔方检验验证转化后的数据是否呈现正态分布。

转化的方式是:将一个样本在第j 个变量上的观测量表示为()12,,j j j jN X x x x =。

正态得分的计算过程如下:定义一个k 的不同样本值的向量,()'''12,,,k j j j jk X x x x =,这里k ≤N ,那么k X ⊆ X ,让i f 是ji x 的值在i x 中出现的频率,值得ji f ≥1. NSji x 的正态得分通过下面的公式计算得到: ()(),1/NSji ji j i ji x N f αα-⎡⎤=∅-∅⎣⎦这里的∅是标准高斯密度函数,α的定义如下:111,0,,1,2,...,1,,,i ji jt t i N f i k i k α--=-∞=⎧⎪⎛⎫⎪=Φ=-⎨ ⎪⎝⎭⎪⎪=∞=⎩∑其中1-Φ是标准高斯分布函数的逆。

对斯洛文尼亚和克罗地亚两国数据转化结果的塔方检验显示:转化后的数据均接受原假设,即,转化后的数据呈现正态分布。

标准化得分与原变量具有同样的的均值和方差。

(二)、基于潜变量LISREL 建立区域发展结构方程指定内生潜变量为η,外生潜变量为ξ,它们的观测值分别为y x 和,结构模型为:B ηηξζ=+Γ+其中η为内生潜变量向量,ξ为外生潜变量向量,ζ为潜误差向量,B 、Γ是系数矩阵。

内生潜变量的测量模型为y y ηε=Λ+外生潜变量的测量模型为:x x ξδ=Λ+其中:()1y q ⨯和()1x p ⨯是可观测变量向量,y Λ和X Λ是系数矩阵,ε和δ是前误差矩阵。

定义 'E ξξ⎡⎤≡Φ⎣⎦, 'E ζζ⎡⎤≡ψ⎣⎦, 'E εεε⎡⎤≡Θ⎣⎦,'E δδδ⎡⎤≡Θ⎣⎦, 'E εδεδ⎡⎤≡Θ⎣⎦模型的协方差阵是由三个单独的协方差阵组成的yy yx xy xx ∑∑⎛⎫∑= ⎪∑∑⎝⎭其中:yy ∑为内生潜变量观测指标的协方差阵yx ∑、xy ∑为内生潜变量与外生潜变量观测指标的协方差阵xx ∑为内生潜变量观测指标的协方差阵最大似然法模型参数的估计是通过最小多元高斯(差异)对数似然函数()()1ln ln F tr S S p q -=∑+∑--+得到的。

其中:P 和q 分别是内生潜变量和外生潜变量观测指标的数量。

()()()()()'111'''''1''',,y y y x x y x x I B I B I B I B εδεεδδ----⎛⎫⎡⎤Λ-ΓΦΓ+ψ-Λ+ΘΛ-ΓΦΛ+Θ ⎪⎣⎦∑= ⎪⎡⎤ ⎪ΛΦΓ-Λ+ΘΛΦΛ+Φ⎣⎦⎝⎭使用Lawley 和Maxwell 方法可以计算潜变量得分:y x ⎛⎫ ⎪⎝⎭ =00x y ηξΛ⎛⎫⎛⎫ ⎪ ⎪Λ⎝⎭⎝⎭+εδ⎛⎫ ⎪⎝⎭其中:0,,,0ya a a x y x x ηεξδξδΛ⎛⎫⎛⎫⎛⎫⎛⎫Λ≡≡≡≡ ⎪ ⎪ ⎪ ⎪Λ⎝⎭⎝⎭⎝⎭⎝⎭ 计算隐变量得分可以运用公式:1111222a a a UD VL V D U x ξ--'''≡ΛΘ其中:'UDU 是'a a a E ξξ⎡⎤Φ≡⎣⎦的奇异值分解, 'VLV 是1/21/2D UTBUD 矩阵的奇异值分解,a Θ为观测变量协方差矩阵误差(三)、对模型的分析及估计结果初步探索性因子分析显示斯洛文尼亚和克罗地亚都有4个潜在的发展层面,然而,因子分析结果并没呈现出简单模型,而是显示出复杂的因子载荷和因子间的高相关性,这表明因子间可能具是结构性或者因果联系。

因此,使用探索性因子分析提取简单结构以便进行更多初步描述分析在这种情况下可能是不适合的。

因子载荷结构可能因为模糊载荷和因子间的结构关系而变得复杂,这就要求要对模型进行检测,同时检测模型的拟合度以及模型的假设。

本文将指定一个斯洛文尼亚和克罗地亚简单的非递归结构模型123ηηη⎛⎫ ⎪ ⎪ ⎪⎝⎭=121312323000000ββηβηη⎛⎫⎛⎫ ⎪⎪ ⎪⎪ ⎪⎪⎝⎭⎝⎭+1121131γγξγ⎛⎫ ⎪ ⎪ ⎪⎝⎭+123ζζζ⎛⎫ ⎪ ⎪ ⎪⎝⎭这个模型假设四个发展层面每个由因子分析测量模型检测。

我们同样指定了两个国家的结构模型,可用数据显示在期待的测量模型中有一定的区别,尤其是斯洛文尼亚的内生测量模型,它的矩阵表达形式如下:1234567y y y y y y y ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭= ()()()()()()()3132142432351537110001000000100y y y y y y y λληλληηλλλ⎛⎫ ⎪ ⎪ ⎪⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪ ⎪⎝⎭+ 1234567εεεεεεε⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ 外生变量测量模型为12x x ⎛⎫ ⎪⎝⎭= ()()11121x x λξλ⎛⎫ ⎪ ⎪⎝⎭+ 12δδ⎛⎫ ⎪⎝⎭内生测量模型潜在误差的协方差阵是对角阵,然而初步分析和测试指标显示放宽()42εθ上的零限制能够提够模型的拟合度。

因此指定εΘ矩阵为:εΘ=()()()()()()()()112233424455667700000000000000000000εεεεεεεεθθθθθθθθ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ 需要注意的是()42εθ是农业人口份额和就业率指标之间的剩余相关。

()42εθ参数的估计值导致塔方检验从108显著下降值67.22.最终外生测量模型潜在误差的协方差矩阵被表示为对角阵:δΘ=()()112200δδθθ⎛⎫ ⎪ ⎪⎝⎭ 如上说述,检验结果为:2χ检验值为67.22,拟合优度为0.927,标准均方根为0.057,可以看出分析结构与数据有很好的拟合度。

而且估计的模型没有显著的修改指标和为模型化的剩余相关。

克罗地亚的内生测量模型的矩阵表示为:1234567ˆˆˆˆˆˆˆy y y y y yy ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭=()()()()()()()()()212231125152362638183100000010000010y y y y y y y y y λλληηλληλλλλ⎛⎫ ⎪ ⎪ ⎪ ⎪⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭+1234567εεεεεεε⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ 外生测量模型的矩阵表示为:123ˆˆˆx x x ⎛⎫ ⎪ ⎪ ⎪⎝⎭=()()11311x x λλ⎛⎫ ⎪ ⎪ ⎪⎝⎭1ξ+123δδδ⎛⎫ ⎪ ⎪ ⎪⎝⎭内生测量模型的误差协方差矩阵是对角阵,外生测量模型的误差协方差矩阵最初表示为:δΘ=()()()112233000δδδθθθ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭ 当放宽对()31δθ的零限制后,对δΘ矩阵的从新估计的矩阵表示为:δΘ=()()()()1122313300δδδδθθθθ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭ 这使得2C 有88.65显著下降至75.57。

通过比较两个国家的结构模型,可以看出社会因素对经济的影响是积极的,有利的,高度显著的。

结构因子对经济的影响在斯洛文尼亚是积极显著的,而在独立电影就的影响就小已写,或者是消极的。

另一个不同之处是地理因素的影响。

表面上看,地理因素似乎对斯洛文尼亚的结构层次的影响的消极的,对克罗地亚的影响是积极的,而对经济层次的的影响上看,它对斯洛文尼亚的影响是显著积极地,而对克罗地亚的影响是不显著的。

地理因素对两国社会层次的影响也是不同的。

两国的内生测量模型在农业人口份额和就业率上有着重要的差异,这个差异很可能是因为两国经济因素结构作用的不同迹象引起的。

(四)聚类分析的得分,就可以进行聚类分析,将具有相似特点的自治区分为几个通过计算潜变量ai小组。

首先使用Ward聚类程序确定类的数量和类中心。

接着使用快速聚类法以Ward聚类发确定的类中心作为初始类中心。

分析结果显示,第一类为各个指标都具有较好的均值的自治区,是最发达的自治区类,第三类正好相反,是最不发达的自治区类。

第二类为中等发达自治区。

除此之外,也可以用每个发展区域的潜变量得分来给每个类中的自治区排序,这对是否将某个自治区列入区域补助资金范围提供有价值的信息。

三、对文章的总结以及心得体会本文提出了一个基于结构模型的区域发展评估的多元统计框架,同时展示了如何使用聚类分析获取地与发展分类。

这个模型比以前所采用的方法具有一些重要的优点:1、模型考虑了分布问题,这使得更强大的推理工具能够得到使用。

2、能够建立前在发展层次的结构关系模型,并对模型和估计参数的假设进行检测。

3、允许在测量模型中有潜变量的复杂的因子载荷结构,也能够对这个结构进行验证。

4、能够计算潜变量得分。

除此之外这些方法能够直接与非参数分类工具,例如聚类分析结合使用,从而能够对区域单元的发展水平进行分类。

相关主题