我国各地区按行业分城镇单位就业人员平均工资统计分析XXXX XXXX【摘要】本文采用《中国统计年鉴2010年》31个省、市、自治区19个行业城镇单位就业人员平均工资共589个数据进行统计分析。
根据行业就业人员平均工资指标,通过聚类分析、主成分分析、因子分析将31个地区的工资水平进行分类,并找出影响分类的公共因子。
进一步分析可得到各地区各行业发展情况及各地区的经济情况,并查阅相关资料,提出各地区行业工资水平的调整建议。
【关键词】城镇单位就业平均工资聚类分析主成分分析因子分析一、引言随着我国经济的发展,越来越多的求职者将目光抛向了我国一线、二线城市的热门行业。
供求关系的不平衡导致大部分求职者的失业,同时也造成其它城市的行业发展不平衡。
要知道,一个地区行业发展有好有坏,但是一个地区是离不开任何一个行业的,当一个地区出现一个行业的退化,必定需要另觅途径去填补这个行业的缺失。
只有当各行业发展满足了当地的需求,行业间平衡协调发展,这个地区的经济水平才能提高,我国经济才有进步。
影响行业发展的因素有很多,但是每个行业的发展必须要有劳动者的支持,劳动者的工资水平直接关系个人、家庭的生活情况,因此各行业的人员平均工资水平就成了主要因素之一。
生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此工资水平必须与经济发展水平相适应。
这样一来,分析各地区各行业的人员工资就变得十分具有现实意义以及可研究性。
本文引用真实数据,对31个省、市、自治区19个行业城镇单位就业人员平均工资进行统计分析。
目的是根据各行业平均工资指标,对地区进行分类以区分地区间的工资水平,再结合该地区该行业的发展情况及需求情况,提出该地区该行业平均工资的调整以吸引更多的求职者,达到促进该行业与该地区经济的协调发展。
二、指标及重要概念说明平均工资:指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。
它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。
其计算公式如下:平均工资=报告期实际支付的全部职工工资总额/报告期全部职工平均人数工资水平:指一定区域和一定时间内劳动者平均收入的高低程度。
三、聚类分析本文采用系统聚类法,其原理为:开始时,每个对象为一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,直到所有对象归为一类。
并类的过程由一张谱系聚类图描述。
本文对数据分别采用系统聚类中的类平均法、中间距离法、可变类平均法、离差平方和法(Ward法)进行聚类分析,通过比对谱系聚类图,发现Ward法的聚类效果最好,最能体现不同地区的平均工资水平的差异。
下面将对Ward聚类法进行详细分析。
输出3.1 Ward聚类法并类过程如输出3.1:NCL>4时,并类过程中RSQ(R^2统计量)的减少是逐渐的;NCL=4时,RSQ=0.774;NCL=3时,RSQ=0.729,下降较多。
由此通过RSQ统计量的变化分析可得出分为四个类较为合适。
SPRSQ(半偏R^2统计量)中最大和次大分别为NCL=1、2、3、4,说明根据半偏R^2准则分为两个类、三个类、四个类、无五个类都是较适合的。
PSF(伪F统计量)中最大和次大分别为NCL=2、3、4,根据伪F统计量分为两个类、三个类、四个类是较适合的。
PST2(伪T^2统计量)最大和次大分别为NCL=1、2、3、5,根据伪T^2统计量准则,认为分为两个类、三个类、四个类、六个类较为适合。
综上所述,分为四类最为合适。
输出3.2 Ward聚类法谱系聚类图由输出3.2:根据Ward聚类法可以将31个省、市、自治区分为四类,具体归类见表3.1。
从分类结果可以看出,属于第一类、第二类的地区较少,很显然的是第一类、第二类的人均平均工资水平是较高的,这说明我国大部分地区的平均工资水平是较低的。
第一、二类中北京、上海、天津、江苏、广东、浙江是我国发展较为迅速的城市,其对应的工资水平也相对较高,这个结果是显然意见的。
但是,这几个城市要面临一个问题就是工作人员需求量与求职者的人数供小于求的不协调关系,相比之下西藏由于其地理位置的特殊,对工作人员的需求量还是十分大的。
第三、四类,工资水平虽然普遍不高,但是行业发展还是有很大的前景,所以下面要进一步进行主成分及因子分析。
四、主成分分析本文分析共采用了19个行业指标,较多的指标个数使得观测的数据在一定程度上反映的信息有所重叠,增加了分析的复杂度;同时较难直观反映各地区人均平均工资水平。
因此,这里应用了主成分分析的降维思想,将原来多指标的问题化为少数几个综合指标的问题,并且这几个综合指标又能够尽可能多地反映原来变量的信息,彼此之间又不相关。
下面对这组数据进行主成分分析。
输出4.1 特征值的相关矩阵由输出4.1:当选取4个主成分时,累计贡献率(Cumulative)已达到87.67%,此时损失的信息量不超过15%,因此选取3个主成分是较为适合的。
输出4.2 部分相关阵的特征值和特征向量由输出4.2:由于数据太多,又因为经过前面(见输出4.1)的分析,可知选取3个主成分足够。
因此这里只给出前面7个主成分的相关阵的特征值和特征向量。
通过相关阵的特征值和特征向量,可以得到主成分函数,例如:*******11234567*******891011121314****1516171810.20820.12040.22930.24410.23310.22740.24740.24870.23780.24360.23140.21720.24110.24980.11650.24970.25550.25300.2419Z X X X X X X X X X X X X X X X X X X X =++++++++++++++++++*9输出4.3由输出4.3:根据Z1、Z2、Z3三个主成分,可以得到个地区工资水平受影响的指标分类情况如表4.2:输出4.3 第二主成分得分对第一主成分得分的散布图由输出4.3:可以看出31个地区可以分为三类(以第一主成分得分分值为2和6为分界点),天津、北京、上海为一类,广东、江苏、浙江、西藏为一类,其余为一类。
得到结果与聚类分析得到结果基本一致。
五、因子分析因子分析是主成分分析的推广和发展,同样是运用降维的思想。
主要研究关阵或协方差阵的内部依赖关系,将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
前面的Ward法聚类分析及主成分分析虽然将我国各地区按行业分城镇单位就业人员平均工资水平分为三类到四类,但仍然存在一定的缺陷。
通过因子分析,希望找出几个真正影响各区城镇单位就业人员平均工资水平的公共因子。
下面是因子分析的过程。
输出5.1由输出5.1:前三个公共因子的累计贡献率为87.67%,即前三个公共因子反应原始变量信息量已经占到总信息量的87.67%。
输出5.2 因子载荷矩阵输出5.3 转换后因子载荷矩阵输出5.4 最终公因子方差估计由输出5.3:经过最优斜交转换法旋转变换的因子载荷矩阵以及每个公告因子解释的方差可知,x1、x4、x5、x6、x7、x11、x13、x14、x16、x17、x18、x19解释了Factor1; x2、x3、x8、x10、x12解释了Factor2;x9、x15解释了Factor3。
这里例举三个因子模型:1123212331230.87901+0.266940.087050.21140+0.762800.185890.55045+0.751040.19567X F F F X F F F X F F F =+=-=-输出5.5 因子得分由输出5.5:可得因子得分函数,如Factor1(F1函数,对于标准化数据):*******11234567*******891011101114***1516170.478730.145460.048230.188700.156090.280690.011340.071750.218570.082630.067740.341340.055920.137830.180820.207050.051970.F X X X X X X X X X X X X X X X X X =--+++----+----++-**1819036110.24992X X +输出5.6 Factor2对Factor1的散点图由输出5.6:因子分析的两张分类表与主成分分析基本一致。
六、综合分析表6.2 因子分析结果可知聚类分析的分类结果与因子分析的分类结果基本一致,只不过,因子分析将聚类分析中第三类、第四类合并为一类。
表6.2前两类都属于工资水平较高的地区,中可以看出,北京、上海、天津、浙江各行业发展较为平衡,大部分行业的影响力都是具备的。
而江苏、广东、西藏的行业发展偏重性较大,其采矿业,制造业,批发和零售业,金融业,租赁和商务服务业的行业影响力较大,而大部分的影响力较小。
表6.2中第三类中地区的行业工资水平受住宿和餐饮业,居民服务和其他服务业的影响较大,而受其他大部分行业的影响较小。
针对第二类、第三类,可以调整其交通运输、仓储和邮政业,水利、环境和公共设施管理业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织等行业的平均工资,以吸引当地该行业的发展。