神经网络研究方法应用于社会科学实证研究-社会学理论论文-社会学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——一、引言在社会学定量研究中经常遇到多个自变量与因变量之间复杂关系的分析。
通常使用的方法是多元回归分析或路径分析。
但是,多元回归分析或路径分析模型都是基于线性关系假设建构的。
而现实生活中变量之间往往是非线性关系,因此线性分析难于真实反应变量之间的关系,甚至会将具有很强非线性关系的变量视为无关,且在多元回归分析或路径分析中由于多重共线性的原因难以纳入更多的变量。
在多变量之间因果关系的分析中如何在方法上有所突破是社会学定量研究中面临的一项难题。
本研究尝试计算机神经网络分析的方法,以毕业生的成就性水平为输出变量,以众多影响因素为输入变量,通过训练神经网络模型对大学毕业生的成就性水平及其影响因素的关系结构进行计算机模拟,希望能够对影响个人社会地位实现的复杂、多变量之间的关系做出更有效的解释。
自1943 年McCulloch 和Pitts 根据生物神经元的一些基本生理特征提出简单的人工神经元数学模型与构造方法至今,神经网络分析方法得到了很大的发展。
90 年代以来,随着自身局限性的问题得到解决,神经网络研究方法在自然科学领域、工程技术、医学、商业、心理学等众多领域中已经得到了广泛的应用,解决了很多传统科学技术解决不了的难题。
它为人类认识世界、开拓未知领域、提高现代科学技术研究水平起到了很好的促进作用。
随着神经网络技术的发展,近几年在经济管理领域有了较多的应用。
沈国琪等构建了BP 神经网络预测模型,对失业状况进行预测,并与多元回归预测模型的预测结论进行比较,结果发现BP 神经网络预测模型的预测性能高于多元回归预测模型。
金代志等构建了基于BP 神经网络的顾客价值识别模型并进行了仿真实验,证明构建的BP 神经网络模型适合对企业的顾客价值进行识别。
陈敏等利用重构相空间的嵌入维数建构了算法与设计相对简单的将混沌理论和神经网络相结合的居民消费价格指数预测模型。
秦迎林等针对当前第三方物流企业资源整合风险预警定量方法的匮乏,探讨了一种基于BP 神经网络的评价模型。
并通过对样本的训练验证了所建立的BP 神经网络模型在物流资源整合风险预警中具有较高的实用价值。
神经网络分析的应用范围极为广泛,如D.Lowe 和M.Tipping 将前向神经网络分析方法运用于地质学,充分显示出了神经网络分析在处理高维数据中的优势。
W.Z. Lu 等人将粒子群优化模型引入了对香港污染级别及趋势的预测,显示出这种新的神经网络分析模型在分析实际空气污染问题时的可行性和有效性。
Hokky Situngkir 试图运用神经网络方法弥合社会学的二元对立问题。
M. Girvan等人提出了一种新的计算网络结构的方法,利用边中介性计算社区网络结构,他们特别关注由网络节点紧密结合成群体而群体之间松散联系的社区。
通过与传统方法的比较,验证了这种方法构建的计算机图具有很强的敏感性和可靠性。
在我国,虽然在经济管理领域神经网络的应用已经取得了不少成就,但在其它人文与社会科学领域中,神经网络研究方法的成功应用仍然属空白。
在社会学实证研究中,由于社会统计方法的限制,某些情况下变量之间的相关性并不能得到很好的解释,因此将神经网络研究方法应用于社会科学实证研究,在方法的创新上是一个有益的尝试。
二、数据来源与变量的选取1. 数据来源本研究所使用的数据来源于哈尔滨工业大学2004 年至2005 年期间进行的毕业生状况调查的数据。
本研究截取1977 年恢复高考以后的20 届毕业生为研究对象,入学年限跨度为1977 年到1996年。
由于分析涉及的变量较多,而且要求分析的个案在任何变量上都不能有缺失值,因此满足本研究的个案数为501 个。
由于1977 年至1996 年是我国从计划经济向市场经济转型的变迁时期,而在这一时期哈尔滨工业大学是一个在我国名列前茅的理工科大学。
因此本文的研究结论只对于国家重点的理工科大学毕业生具有参考价值。
2. 大学毕业生成就性水平指标体系的建构(1)指标的选择及赋值。
成就性水平是指个人在社会体系中所拥有的地位、权势、财富或声望的总和。
本文中成就性水平的指标由下述变量构成:社会地位指数、收入在单位中的相对水平、目前住房的使用面积、2004 年总收入、岗位在单位中的重要性、获奖指数六个变量构成。
(2)基于主成份分析的指标合并。
由于上述表示个人成就性水平的指标不仅多,而且包括了不同测度层次的变量。
本文应用主成份分析的方法对上述指标降维处理。
主成份分析需要变量之间具有较强的相关关系,因此需要对变量是否适合于作主成份分析进行检验。
采用KMO 方法进行检验的结果是KMO 值为0.724,显着性水平为0,这说明变量之间有较强相关,适合做主成份分析。
在主成份分析中按照变量的数量提取主成份的个数,即提取 6 个主成份。
这6 个主成份特征值及方差贡献率的分布见表1。
以每个主成份的方差贡献率为权数,计算主成份得分的加权平均值,这样可以将不同测量水平,不同单位的变量综合成为一个主成份得分,该主成份得分称为成就性水平得分,分数的大小可以反应个体成就性水平的高低,其计算公式为:成就性水平=F10.356+F20.17+F30.149+F40.126+F50.112+F60.087【表1】3. 影响因素的变量选择本研究根据经验判断从先赋因素和致获因素两方面共选择了对毕业生的成就性水平可能产生影响的22 个变量,外加时间变量。
时间变量为:本科入学至调查时的年限;先赋因素为:读本科时家庭经济状况(当时的社会平均水平)、父亲的职务级别、父亲的职称、父亲的面貌、父亲的文化程度、母亲的职务级别、母亲的职称、母亲的面貌、母亲的文化程度、上大学前主要居住地区类型;致获因素为:最后学历、面貌、高考成绩与重点分数线的差、本科时的学习成绩在班级的排名、本科时学习刻苦程度、本科时担任学生干部的级别、本科时担任学生干部的时间长度、本科时获得奖励的级别、本科时所在班级获得奖励的级别、本科时参加课外活动情况、读本科时的人际交往情况、读本科时的人际关系情况。
由于人际交往和人际关系的测量比较困难,本研究采用读本科时您愿意和寝室的多少人交往作为人际交往的指标,读本科时您寝室有多少人愿意和您交往作为人际关系的指标。
三、BP 神经网络分析的原理1. BP 神经网络模型的结构BP(Back Propagation)神经网络模型是模仿人的大脑建构的仿真模型,由神经元和神经元的连接构成神经网络。
每个神经元都可以接受来自其它神经元的输入,并计算出输出,这些输出也可以成为其它神经元的输入。
一般具有输入层、隐含层、输出层三个部分,网络结构如图1 所示。
输入层的每一个神经元都对应着一个输入变量xi,这些变量的值也称为网络输入。
隐含层中可能包含一层也可能包含多层神经元。
输出层因应用目的不同可以有多个输出神经元,也可以只有一个输出神经元。
图中的w、v 是权值。
每个神经元在接受输入信息时将输入数据与权值相乘以后进行计算,然后向下一层神经元输出。
【图1】本研究中,输入层神经元的个数与影响因素变量数相同,共为23 个。
输出层神经元个数与因变量数相同,本研究只有一个因变量,因此输出神经元为 1 个。
隐含层包含的层数和神经元个数由研究者来确定。
由于隐含层层数和隐含层神经元个数的不同将会影响到神经网络模型拟合优度。
因此为得到最优的神经网络模型必须首先确定隐含层的层数和隐含层神经元个数。
根据经验,初步设定第一层隐含层的神经元个数为输入层神经元个数的二分之一,第二层隐含层的神经元个数可以为第一层的二分之一,以此类推。
每次训练以后软件可以提供拟合优度和每个神经元对输出结果的贡献率。
如果存在贡献率特别小的神经元,就减少神经元的个数。
隐含层层数和隐含层神经元个数确定的方法是在设定同样的迭代次数(本研究中的迭代次数为50000 次)的情况下选择拟合优度的模型。
本研究采用Qnet 神经网络分析软件,经过多次训练不断调整,最终确定的神经网络模型为:输入层包含23 个神经元,第一隐含层包含12 个神经元,第二隐含层包含6 个神经元,输出层为1 个神经元。
网络结构如图2 所示。
【图2】2. BP 神经网络模型的训练过程使用神经网络来分析因变量与自变量之间关系时,将因变量的观测值视为网络的期望输出,也称为目标变量。
自变量的观测值即是网络输入。
神经网络模型根据网络输入计算出的结果称为网络输出。
网络输出与期望输出的差即为误差。
神经网络模型依据误差反向传播算法来消除误差。
在正向传播阶段,输入层神经元将输入数据计算后传递给隐含层神经元,隐含层神经元接收到这些数据后经过计算再传递给输出层神经元,每一层神经元的状态只影响到下一层神经元的状态。
输出层会将网络输出结果与因变量的观察值进行比较。
当差值超过误差允许范围时,进入误差反向传播阶段,误差信号按原来的连接通路返回,同时对各层之间的连接权值进行调整,直到系统误差可以接受为止,此后权值不再改变。
这个过程也称为神经网络模型的训练过程。
在这里我们要特别说明神经网络模型的拟合优度问题,由于初始化时网络的权值是系统随机赋予的。
所以,即使用同一个网络结构,同一组数据训练出的神经网络是不唯一的。
但差异不会太大。
为了更好的判定神经网络模型的拟合优度,应进行多次重复训练。
本研究进行了33 次重复训练,拟合优度时为0.82,最差的也达到0.71。
33 次训练的平均拟合优度为0.76。
四、神经网络分析结果神经网络模型训练结束以后,系统会给出每个输入神经元对输出变量的贡献率。
系统将全部输入变量对输出变量的贡献率视为100%。
通过比较每个输入神经元对输出的贡献率来确定输入变量对输出变量影响作用的大小。
本研究中有23 个输入变量,平均每个输入变量对输出变量的贡献率为4.35%。
如果某个输入变量的贡献率大于该值就可以认为该输入变量对输出变量有较大影响。
由于输入神经元对网络输出的贡献率受到每次训练时输入神经元权值的初始赋值影响,每次训练得到的贡献率并不相同。
为了更好的判定每个影响因素变量对成就性水平影响程度的大小,用每个输入神经元在33 次训练中的平均贡献率作为其对输出变量影响的指标。
为清晰展现不同影响因素对大学毕业生成就性水平的作用,利用23 个影响因变量的平均贡献率绘制了图3。
【图3】从图3 中可以看出,引入模型中的影响因素作用可以分为四个层次。
处于第 1 个层次的是前三个变量,它们对输出变量的贡献率明显大于其它变量,这三个变量的作用依次递减,差异也很大。
处于第2 个层次的变量是第4 到第10 的变量,它们对输出变量的贡献率虽然依次递减但相互差异不大。
处于第 3 个层次的变量是第11 到第19 的变量,这些变量的作用几乎处在一个水平线上。