当前位置：文档之家› (整理)因子分析与聚类分析案例.

(整理)因子分析与聚类分析案例.

1 因子分析与聚类分析理论简介1.1 因子分析法因子分析法是一种通过分析多个变量间协方差矩阵（或相关系数矩阵）的内部依赖关系，找出能代表所有变量的少数几个随机变量的计量分析方法。

其中，找出的几个随机变量是不可测量的，将其称为公因子。

每个公因子之间是互不相关的，所有变量都可以由这几个公因子的线性表示。

因子分析通过减少变量的数目，用少数因子代替所有变量去分析整个经济问题，大大简化了现实分析过程。

假设有N 个样本，P 个指标，()TP X X X X ,,,21⋅⋅⋅=是随机向量，需要寻找的公因子是()Tm F F F F ,,,21⋅⋅⋅=，则将模型112121111ε++⋅⋅⋅++=m m F a F a F a X 222221212ε++⋅⋅⋅++=m m F a F a F a X...p m pm p p p F a F a F a X ε++⋅⋅⋅++=2211称为因子模型。

将矩阵()ij a A =称为因子载荷矩阵，将ij a 称为因子载荷（Loading ），因子载荷的实质是公因子Fi 与变量Xj 的相关系数。

其中，ε为特殊因子，代表公因子以外的影响因素，在实际分析时一般忽略不计。

对于需要求出的的公因子，其实际含义取决于该公因子在哪些变量上有较大的载荷。

但一般情况下，初始因子模型的因子载荷矩阵都比较复杂，不利于因子的解释。

因此可进一步通过因子旋转，给出对各公因子更加合理明显的解释。

公因子求出后，可以进一步用回归估计等方法求出各个公因子得分的数学模型，将其表示成变量的线性形式，从而计算求出得分。

模型如下：n in i i i X b X b X b F +⋅⋅⋅++=2211 （i = 1，2，...，m ）1.2 层次聚类法聚类分析的实质是按照距离的远近将数据分为若干个类别，以使得类别内数据的“差异”尽可能小，类别间的“差异”尽可能大。

“差异”的描述是通过距离或相似性的方法来描述。

在统计学中最常用的是距离表达式欧几里得距离，对于两条数据),,(111z y x 和),,(222z y x ，欧几里得距离的计算公式是：221221221)()()()2,1(z z y y x x Euclid -+-+-=本文应用的是聚类分析法中的层次分析法，选用的是欧几里得距离的计算方法。

层次分析法通过把距离接近的数据一步一步归为一类，直到数据数据完全归为一个类别为止，再利用一些相应的指标来确定聚为几类的结果是最为合适的。

显然，这一系列的聚类结果存在着嵌套，或者说是层次的关系，由于这种结果上的层次关系，整个分析过程，特别是每一步中完成的合并或分割都可以用一张二维空间的图形来表示，这种图被称为“树状图”，是层次聚类法结果解释的重要工具。

本文也将利用这一工具对我国商业银行竞争力水平进行研究。

2 股份制商业银行竞争力的实证分析2.1 样本数据的选取和处理一、样本选取本文评价的是我国股份制商业银行的竞争力，以我国国有商业银行和城市商业银行的比较研究得出我国股份制商业银行竞争力的优势与劣势。

由于数据选取的局限性（在本文写作过程中，各家商业银行还未全部公布2009年年报），本文数据主要来自于各商业银行的年报数据[44]以及各家银行网站披露相关信息，因此鉴于数据搜集原因，本文采用了2008年的股份制商业银行、国有商业银行和城市商业银行的的数据。

同时由于无法获得中国光大银行、广东发展银行、恒丰银行、浙商银行和渤海银行等五家银行的财务报表（这五家股份制商业银行不是上市商业银行，非上市银行披露的数据一般不具有全面性和及时性，真实度也较差），所以本文最终研究的是7家股份制商业银行：中信银行、华夏银行、深圳发展银行、招商银行、上海浦东发展银行、兴业银行、民生银行。

同理，本文选取了4家国有商业银行1作为比较研究对象：中国工商银行、中国银行、中国建设银行和交通银行。

考虑到已上市城市商业银行也具有一定的竞争力，在某些方面有借鉴之处，且代表了城市商业银行的新兴力量，因此将已上市的3家城市商业银行纳入股份制商业银行竞争力对比研究当中，作为比较研究对象，这3家已上市城市商业银行为：北京银行、上海银行、南京银行。

二、指标的标准化在指标处理前，先要对原始数据标准化，标准化后的变量为X*i,j ，即第i 个银行的j 指标，具体的标准化如下：对于正指标：ij ij ij ij ij X manX X X X min min *--=对于逆指标：ijij ij ij ij X X X X X min max max *--=其中，正指标与银行竞争力得分呈正相关关系，相应的逆指标与竞争力得分成负相关关系。

标准化消除了正逆指标的影响，正指标原本越大，处理后也越大，逆指标情况则相反。

2.2 实证分析2.2.1 因子分析运用SPSS 软件对原始指标数据进行实证分析，可以得到相关系数矩阵及变量共同度表，见表 2.1，分析可得所有变量的共同度都比较大。

变量共同度说明了全部公因子反映出原变量信息的百分比，描述了全部公因子对变量X 的总方差所做的贡献。

较大的变量共同度说明变量空间转化为因子空间时，保留了比较多的信息。

12008年中国银监会我国银行业的最新分类将交通银行从股份制商业银行划转为国有商业银行。

所以进行因子分析是有依据的。

表 2.1 变量共同度表对SPSS软件产生的总方差分析表进行整理，可以得到表 2.2的各因子对原始指标数据的贡献率。

表 2. 2 因子分析特征值及方差贡献率表Tab. 2.2 Eigen value and variance contribution of factor analysis table 因子特征值方差贡献率(％)累计贡献率(％)F1 7.25827.916 27.916F2 4.93018.960 46.876F3 2.898 11.145 58.021F4 2.788 10.722 68.743F5 2.767 10.644 79.387F6 2.323 8.936 88.323 由上表2.2可知，因子F1~F6对原始指标数据的累计贡献率达到88.323%，超过了85%的标准，其特征值也较大，均超过1的标准；同时，因子中F1的方差贡献率最大，为27.916%，其次是F2，为18.960%，说明因子F1和F2是银行竞争力因素中更重要的因素。

通过SPSS软件产生的碎石图可以更直观的挑选出特征值较大的因子，从第F7开始，折线趋于平缓。

因此，我们选择Fl~F6作为决定商业银行竞争力的公因子。

图2.1 碎石图从SPSS 软件我们可以得到因子F1~F6的载荷矩阵()ij a A =。

因子载荷ij a 是实际上就是公因子Fi 和变量Xj 的相关系数，表示变量Xj 依赖因子Fi 的程度，反映变量Xj 对于公因子Fi 的重要性。

因此，因子载荷ija 的绝对值越大，表示变量Xj对公因子Fi 越重要。

通过正交旋转得到的因子载荷矩阵，即表 2.3，可以进一步明确因子的具体意义。

表 2.3 正交旋转后的因子载荷矩阵Tab. 2.3 Orthogonal rotated factor loading matrix指标因子1 2 3456资产利润率X1 0.220 0.741 0.167 0.500 0.046 0.016 净资产收益率X2 0.007 -0.074 -0.058 0.970 0.076 0.060 每股收益X3 -0.268 -0.052 0.185 0.862 -0.001 0.140 人均利润率X4 -0.308 0.593 0.016 0.563 -0.447 -0.051 营业费用率X5 0.471 0.603 0.049 0.031 -0.437 -0.123 资本充足率X6 0.020 0.962 -0.066 -0.153 -0.113 0.074 核心资本充足率X7 0.086 0.955 -0.014 -0.198 -0.064 0.011 不良贷款率X8 -0.672 -0.177 0.658 0.089 -0.137 0.133 贷款损失准备率X9 0.508 0.354 -0.692 0.297 -0.040 -0.028 最大客户贷款比率X10 0.110 -0.137 0.046 0.083 0.928 -0.049 十大客户贷款比率X11 0.355 -0.215 -0.015 0.017 0.823 -0.236 人民币流动性比率X12 -0.322 0.468 -0.156 0.095 -0.413 -0.319 外币流动性比率X13 -0.1180.8730.079 0.053 -0.107 0.303存贷比X14 0.757 0.469 0.006 -0.264 -0.157 0.142 现金资产比率X15 -0.429 0.013 -0.235 -0.175 0.452 -0.546 总资产X16 0.919 -0.047 -0.192 -0.088 0.179 -0.191 机构网点数X17 0.919 -0.047 -0.192 -0.088 0.179 -0.191 存款份额X18 0.935 -0.132 -0.180 0.004 0.193 -0.091 贷款份额X19 0.925 -0.159 -0.198 0.014 0.204 -0.118 存款增长率X20 -0.169 0.161 0.896 0.102 0.113 0.079 贷款增长率X21 -0.487 0.310 0.667 0.084 0.004 0.233 股权集中程度X22 -0.507 0.011 0.204 0.015 -0.156 0.789 股东集中程度X23 -0.137 0.220 0.006 0.108 -0.004 0.876 流通股占比X24 -0.583 -0.316 0.269 0.179 -0.204 0.336 非利息收入占比X25 0.234 0.109 -0.507 -0.392 0.388 -0.001 本科以上学历员工占比X26-0.856-0.2520.2470.1640.098-0.175根据上表，得到因子模型：X1 = 0.220 F1 + 0.741 F2 + …… + 0.046 F5 + 0.016 F6 X2 = 0.007 F1 — 0.074 F2 + ……+ 0.076 F5 + 0.060 F6 ……X24 = 0.234 F1 + 0.109 F2 + ……+ 0.388 F5 — 0.001 F6 X25 = -0.856 F1 — 0.252 F2 + ……+ 0.098 F5 — 0.175 F6从因子模型可以看出，因子F1的总资产、机构网点数、存款份额、贷款份额、本科学历以上员工占比、存贷比的系数分别为0.919、0.919、0.935、0.925、0.856、0.757，远大于其他变量的系数，所以因子F1主要是代表银行规模、市场占有率、人力资源以及流动性的因子；因子F2的资本充足率、核心资本充足率、外币流动性比率、资产利润率、人均利润率、营业费用率的系数分别为0.962、0.955、0.873、0.741、0.593、0.603，大于其他变量的系数，所以因子F2主要代表的是资本充足度、流动性和盈利性因子；因子F3的存款增长率、贷款增长率、不良贷款率、贷款损失准备率、非利息收入占比的系数分别为0.896、0.667、0.658、0.692、0.507，远大于其他变量的系数，所以F3主要反映银行的市场份额增长率、资产质量以及创新能力；因子F4的净资产收益率、每股收益的系数分别为0.970、0.862，显著大于其他变量的系数，所以F4主要反映银行的盈利性；因子F5的最大客户贷款比例、十大客户贷款比例的系数分别为0.928、0.823，远大于其他变量的系数，所以F5主要代表银行的贷款集中度；因子F6的股权集中程度、股东集中程度的系数分别为0.789、0.876，远大于其他变量的系数，所以F6主要反映银行公司治理情况。

e商务文档

(整理)因子分析与聚类分析案例.

相关文档推荐：