高校硕士研究生招生指标分配摘要高等学校研究生招生指标分配问题,对研究生的培养质量、学科建设和科研成果的取得有直接影响。
本文针对研究生招生指标分配问题建立层次分析模型,提出了合理的分配方案,并得出了2012年招生指标的分配方案。
针对问题一,补充缺失数据,对教师岗位级别的划分,明显属于归类问题,因此本文利用招生人数、科研经费、发表中英文论文数、申请专利数、获得优秀论文数量描述样本属性,建立朴素贝叶斯分类模型,通过MATLAB编程得到教师属于各级别的概率,概率最大者即为该教师所属岗位级别。
最终得到结果如下:18、103、110、123、150、168、274、324、335、352分别属于4、5、5、7、3、1、1、3、6、5。
针对问题二,以教师岗位级别为指标,分析统计规律,首先利用Excel求得各量的均值并作图,然后利用SPSS分析岗位级别与其他各量的相关性,得出岗位级别与其他指标的统计规律。
针对问题三,本文建立以各岗位级别分配人数为目标层,以招生人数、到账经费、年均发表中英文论文篇数等指标为准则层,以各岗位级别招生人数的比重为方案层的层次分析模型,通过模型求解得到了其各岗位级别权重系数,进而利用2012年的预测招生总人数确定了2012招生指标预分配方案。
针对问题四,考虑学科特点,参照问题三同样建立层次分析模型,得到各学科权重系数,进而对预分配方案进行调整。
最后,联系实际,添加就业前景与招生能力等指标,建立优化模型,拟对方案作出进一步调整。
关键词:朴素贝叶斯分类层次分析法Spearman检验指标分配方案MATLAB一、问题重述高等学校研究生招生指标分配问题,对研究生的培养质量、学科建设和科研成果的取得有直接影响。
特别是2011年研究生招生改革方案中,将硕士研究生招生指标划分为学术型和专业型两类。
这一改革方案的实施,给研究生教育的发展带来发展机遇的同时,也给研究生招生指标分配的优化配置提出了新的思考。
附件的数据是某高校2007-2011年硕士研究生招生实际情况。
研究生招生指标分配主要根据指导教师的数量以及教师岗位进行分配。
其中教师岗位分为七个岗位等级(一级岗位为教师的最高级,七级岗为具备硕士招生资格的最低级)。
另外数据表还列出了各位教师的学科方向,2007-2011年的招生数,科研经费,发表中、英文论文数,专利数,获奖数,获得校、省优秀论文奖数量等信息。
请你参考有关文献、利用附件的数据建立数学模型,并解决下列问题。
1. 由于统计数据的缺失,第18、103、110、123、150、168、274、324、335、352位教师的数据不完整,请你用数学模型的方法将这些缺失的数据补充完整。
2. 以前的硕士研究生名额分配方案主要参考导师岗位级别进行分配。
请你以岗位级别为指标,分析每个岗位的招生人数、科研经费、发表中英文论文数、申请专利数、获奖数、获得优秀论文数量的统计规律,并给出合理的解释。
3. 根据第二问的结论,提出更加合理的研究生名额分配方案,使得新方案既兼顾到岗位又能兼顾到其他因素,例如研究生的招生类型等,并要求用此方案对2012年的名额进行预分配。
4. 如果在研究生招生指标分配当中,考虑到学科的特点和学科发展的需要,进行差异分配,请你设计调整方案,并用你的方案给出2012年的调整方案。
5. 如果想把分配方案做得更加合理,你认为还需要哪些指标数据,用什么方法可以完成你的方案?请阐述你的思想。
二、模型假设1、缺失数据的教师的岗位级别均不存在异常;2、数据中获得奖励个数大部分为零,认为其与教师岗位无明显的相关性,或者相关性很小;3、年份变化教师岗位级别不变,因此仅分析2007-2011年的合计、平均数据;4、研究生生源情况不存在问题;5、样本属性值相互条件独立,即在属性间,不存在依赖关系。
三、符号说明i s :类i C 中的训练样本数;s :是训练样本总数; k A :样本数据的第n 个属性; m C :第m 个类;i P :表示各级岗位招生人数的比重; i L :表示各学科;A 和iB :判断矩阵;1,2,=[...,]T n W W W W :所求特征向量;max λ:判断矩阵的最大特征根;CI :一致性指标;CR :随机一致性指标;α:各岗位级别权重系数;β:各学科权重系数。
四、问题分析针对问题一,教师岗位级别数据的补充,明显是一个归类问题,其他教师的数据均为样本数据,因此考虑利用已知数据中的招生人数、科研经费、发表中英文论文数、申请专利数等连续性的数据描述样本属性,建立普斯贝叶斯分类模型,分别求得各教师属于各级别的概率,比较概率值,概率最大者即为其所属岗位级别。
针对问题二,以岗位级别为指标,分析统计规律,首先利用Excel 求得各指标的均值(期望),然后作图分析岗位级别与其他指标的大致关系,并给出合理解释,然后利用SPSS 分析岗位级别与各指标的相关性,求得相关系数,分析相关性强弱。
针对问题三,提出合理的分配方案,对2012年的招生指标进行分配,首先需确定2012年招生总人数,根据2007-2011年的招生人数建立线性回归模型,预测得到2012年的招生人数,接下来分析原方案存的缺陷,原方案指标分配时仅考虑了教师数量以及岗位级别,指标单一,因此本文考虑利用招生人数、到账经费以及发表论文篇数建立层次分析模型,以各指标为准则层,各级别岗位招生人数为目标层,各级岗位权重为方案层,利用层次分析所得权重以及2012年的预测招生人数确定各级别岗位招生人数和各学科平均招生人数。
针对问题四,考虑学科特点与学科发展的需要,调整方案,对方案的调整,须建立在问题三的基础上,本文考虑利用与学科相关性较强的指标作为指标层,各学科分配人数作为目标层,各学科权重为方案层建立层次分析模型,其中指标层的确定需要做类似于问题的相关性分析,只是变为以学科类别为指标,得到相关系数较大,相关性较强的指标作为准则层。
利用层次分析模型确定各学科的权重以后,再结合问题三所得的各级岗位招生人数和2007-2011五年同一级别中各学科招生人数在总招生人数中所占的比例最终确定各学科各级别岗位平均招生人数。
五、模型建立与求解5.1 缺失数据的补充 5.1.1 模型介绍朴素贝叶斯分类或简单贝叶斯分类的工作过程如下:(1)每个数据样本用一个n 维特征向量{}n x x x X ,...,21=表示,分别描述对n 个属性12n A A ⋯⋯A 样本的n 个度量。
(2)假定有m 个类12m C C C ⋯⋯。
给定一个未知的数据样本X (即没有类标号),分类法将预测X 属于具有最高后验概率(条件X 下)的类。
即是说,朴素贝叶斯分类将未知的样本分配给类i C ,当且仅当()(),1,i j P C X P C X j m j i>≤≤≠这样,最大化i P C X (/)。
其(/)i P C X 最大的类i C 称为最大后验假定。
根据贝叶斯定理,()()()()P X H P H P H X P X =()()()()i i i P X C P C P C X P X =(3)由于()P X 对于所有类为常数,只需要()()i i P X C P C 最大即可。
注意,类的先验概率可以用s s C P i i =)(计算其中i s 是类i C 中的训练样本数,而s 是训练样本总数。
(4)给定具有许多属性的数据集,计算)/(i C X P 的开销可能非常大。
为降低计算)/(i C X P 的开销,可以做类条件独立的朴素假定。
给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。
这样,∏==nki K i C X p C X P 1)/()/(概率)/(1i C X P ,)/(2i C X P ,…)/(i n C X P 可以由训练样本估值,其中 如果k A 是连续值属性,则通常假定该属性服从高斯分布,因而()eiCii i i C k x x g C X P C C C k i k 22221,,)/(σμπσσμ⎪⎭⎫⎝⎛-==其中,给定类i C 的训练样本属性k A 的值,()i i C C k x g σμ,,是属性k A 的高斯密度函数,而iiC C σμ,分别为平均值和标准差。
(5)为对未知样本X 分类,对每个类i C ,计算)()/(i i i C P C X P 。
样本X 被指派到类i C ,当且仅当i j m j C P C X P C P C X P j j i i ≠≤≤>,1),()/()()/(换言之,X 被指派到其)()/(i i C P C X P 最大的类i C 。
5.1.2 模型建立与求解数据样本用属性招生人数、科研经费、发表中英文论文数、申请专利数、获得优秀论文数量描述,类标号属性教师岗位具有五个不同值。
我们希望分类的样本为()"X ="招生人数、科研经费、发表中英文论文数、申请专利数、获得优秀论文数量 我们需要最大化(/)(),1,2,3,4,5,6i i P X C P C i =。
每个类的先验概率()i P C 可以根据训练样本计算得到下表:表2 训练样本的先验概率()i P C一级岗 二级岗 三级岗 四级岗 五级岗 六级岗 七级岗 5.65%3.67%5.08%18.64%5.37%9.60%51.98%利用MATLAB 编程得到如下结果:表3 分析所得教师岗位等级教师编号 335 324 123 110 352 岗位等级 6 3 7 5 5 教师编号 103 168 18 150 274 岗位等级51431理论上讲,与其它所有分类算法相比较,贝叶斯分类具有最小的出错率。
然而,实践中并非总是如此。
这是由于对其应用的假定(如类条件独立性)的不准确性,然而种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域,该分类算法可以与之媲美。
5.2 分析统计规律针对问题二,以岗位级别为指标,分析统计规律,本文首先通过计算招生人数、科研经费、发表中英文论文数、申请专利数、获得优秀论文数量、年均影响影子的期望,以岗位级别为横坐标,其他指标为纵坐标分别作图,分析图表得出岗位级别与其他指标的大致统计规律,再利用SPSS 的Spearman 检验分析岗位级别与其他指标的相关性,得到相关系数,分析相关关系的强弱。
5.2.1 Excel 作图分析统计规律利用Excel 分别作出岗位等级与其他指标的关系图表如下:硕士平均招生人数与岗位等级变化趋势510152025301234567岗位等级人数/人图1 硕士平均招生人数与岗位等级变化趋势年平均到账经费与岗位等级变化趋势204060801001201234567岗位等级年平均到账经费图2 年平均到账经费与岗位等级变化趋势每位导师年均发表论文数随岗位等级变化趋势0.20.40.60.811.21.41.61234567岗位等级图3 年平均发表中英文论文篇数与岗位等级变化趋势获得优硕论文平均篇数与岗位等级变化趋势0.20.40.60.811.21.41.61.81234567图4 获得优秀硕士论文平均篇数与岗位等级变化趋势图表分析: 图1 线性趋势下降岗位等级与招生人数成正相关,随着等级的下降,必然导致招生人数的下降。