当前位置：文档之家› 学生评教留言的倾向性分析

学生评教留言的倾向性分析

Ｓｏｆｔｗａｒｅ　ａｎｄ　Ａｌｇｏｒｉｔｈｍｓ　

学生评教留言的倾向性分析　

李效伟　

（山东女子学院信息技术学院，山东济南２５０３００）　

摘　要：学生评教留言经过逐年累积，已经形成一个巨量的信息资源，如何进行挖掘和分析这些资源已经成为一项紧迫的任务。　

本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析，采用ＩＣＴＣＬＡＳ分词软件进行分词，利　用ＭＡＴＬＡＢ软件进行矩阵奇异值分解和降维，使用支持向量机进行训练和预测数据，从而能够对学生留言的情感倾向性给出很　

好的预测结果。最后通过实例说明了文中算法的有效性。　关键词：倾向性分析；分词；特征选择；降维；支持向量机　中图分类号：ＴＰ３９１　文献标识码：Ａ　文章编号：１６７４·７７２０（２０１６）０３－００２４—０４　

引用格式：李效伟．学生评教留言的倾向性分析［Ｊ］．微型机与应用，２０１６，３５（３）：２４·２７，３０．　

Ｏｒｉｅｎｔａｔｉｏｎ　ａｎａｌｙｓｉｓ　ｆｏｒ　ｓｔｕｄｅｎｔ　ｃｏｍｍｅｎｔｓ　

Ｌｉ　Ｘｉａｏｗｅｉ　

（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｄｏｎｇ　Ｗｏｍｅｎ’Ｓ　Ｕｎｉｖｅｒｓｉｔｙ，Ｊｉｎａｎ　２５０３００，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｉｎ　ｔｈｅ　ｔｅａｃｈｉｎｇ　ｅｖａｌｕａｔｉｏｎ　ｓｙｓｔｅｍ　ｏｆ　ｍｏｓｔ　ｕｎｉｖｅｒｓｉｔｉｅｓ，ｓｔｕｄｅｎｔ　ｃｏｍｍｅｎｔｓ　ａｃｃｕｍｕｌａｔｅ　ｙｅａｒ　ｂｙ　ｙｅａｒ，ａｎｄ　ｈａｖｅ　ｂｅｅｎ　ａ　ｓｏｕｒｃｅ　ｗｉｔｈ　ｈｕｇｅ　ａｍｏｕｎｔ　ｏｆ　ｉｎｆｏｒｍａｔｉｏｎ．ＨＯＷ　ｔｏ　ｕｓｅ　ｔｈｅｓｅ　ｃｏｍｍｅｎｔｓ　ｔｏ　ｒｅｆｌｅｃｔ　ｔｈｅ　ｃａｐａｂｉｌｉｔｙ　ｏｆ　ａ　ｕｎｉｖｅｒｓｉｔｙ　ｔＯ　ｅｎｈａｎｃｅ　ａｎｄ　ｉｍｐｒｏｖｅ　ｉｔｓ　ｌｅｖｅｌ　ａｎｄ　ｍｅｔｈｏｄｓ　ｏｆ　ｔｅａｃｈｉｎｇ　ｈａｓ　ｂｅｅｎ　ａｎ　ｕｒｇｅｎｔ　ｌａｓｋ．Ｔｈｉｓ　ｐａｐｅｒ　ｆｅｌｌ　ｉｎ　ｔｈｅ　ｓｃｏｐｅ　ｏｆ　ｔｅｘｔ　ｏｒｉｅｎｔａｔｉｏｎ　ａｎｄ　ｇａｖｅ　ｏｒｉｅｎｔａｔｉｏｎ　ａｎａｌｙｓｉｓ　ｏｆ　ｓｔｕｄｅｎｔ　ｃｏｍｍｅｎｔｓ　ｕｓｉｎｇ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｓｕｃｈ　ａｓ￣ｅｑｕｅｎｃｙ，ｉｎｆｏｒｍａｔｉｏｎ　ｇａｉｎ，ｐｒｏｂａｂｉｌｉｔｙ　ｒａｔｉｏ，ａｎｄ　ｄｉｆｅｒｅｎｃｅ　ｉｎ　ｅｘｐｅｃｔａｔｉｏｎ，ａｎｄ　ｕｓｅｄ　ｔｈｅ　ｓｏｆｔｗａｒｅ　ｎａｍｅｄ　ＩＣＴＣＬＡＳ　ｔＯ　ｇｅｔ　

ｔｈｅ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｏｆ　ｃｏｍｍｅｎｔ　ｔｅｘｔ．Ｔｈｅｎ　ｉｔ　ｕｓｅｄ　ＬＩＢＳＶＭ　ｔｏ　ｔｒａｉｎ　ａｎｄ　ｐｒｅｄｉｃｔ　ｄａｔａ　ａｎｄ　ｕｓｅｄ　Ｍａｔｌａｂ　ｓｏｆｔｗａｒｅ　ｔｏ　ｒｕｎ　ｓｉｎｇｕｌａｒ　ｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ　ａｎｄ　ｄｉｍｅｎｓｉｏｎａｌｉｔｙ　ｒｅｄｕｃｔｉｏｎ．Ｔｈｅ　ｓｙｓｔｅｍ　ｃａｎ　ｇｉｖｅ　ｅｍｏｔｉｏｎａｌ　ｔｅｎｄｅｎｔｉｏｕｓｎｅｓｓ　ａｓ　ｔｈｅ　ｒｅｓｕｌｔ　ｏｆ　ｔｈｅ　ｃｏｍｍｅｎｔ　ａｎａｌｙｓｉｓ．Ｅｘａｍｐｌｅｓ　ａｒｅ　ｇｉｖｅｎ　ｔｏ　ｓｈｏｗ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｏｕｒ　ａｌｇｏｒｉｔｈｍ．　

Ｋｅｙ　ｗｏｒｄｓ：ｏｒｉｅｎｔａｔｉｏｎ　ａｎａｌｙｓｉｓ；ｓｅｇｍｅｎｔａｔｉｏｎ；ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ；ｄｉｍｅｎｓｉｏｎ　ｒｅｄｕｃｔｉｏｎ；ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　

Ｏ　引言　

学生评教留言经过逐年累积，已经形成一个巨量的信　息资源，对其进行数据挖掘已经成为刻不容缓的工作，如　

何更好地利用大量的留言体现了一个学校对其教学水平　

和方法进行提升和改进的能力，一个高水平的学校应积极　

发展对学生留言的挖掘，对其进行分析、处理并最后得出结　论，及时了解和分析教师的教学现状和学生们的听课反馈。　

国内外相关学者对文本倾向性分析进行了大量研　

究　，虽然英文的倾向性研究已经很成熟并得到了丰硕　成果　，但是中文文本的倾向性研究还处在发展阶段，　有着广阔的发展空间。柴玉梅等…通过分析中文文本内　

容褒贬色彩的客观性和褒贬倾向性分类的可行性，将特征　

选择方法和褒贬特征提取技术结合起来，实现了名人网页　

的褒贬倾向性分类；唐慧丰等　通过对中文文本不同分类　

方法的对比分析，提出采用ＢｉＧｒａｍｓ特征表示方法、信息　

增益特征选择方法和ＳＶＭ分类方法，在足够大训练集和　选择适当数量特征的情况下，在情感分类方面取得较好的　

效果；Ｔａｎ等　针对中文文本，通过对四种特征选择方法和　

基金项目：山东省高等学校人文社会科学研究项目（Ｊ１４ＷＪ０２）；全国统　计科学研究计划（２０１２ＬＹ０２２）；山东省自然科学基金（ＺＲ２０１１ＦＬ００５）　

２４　五种学习方法进行实验，提出信息增益特征选择方法与　

ＳＶＭ进行组合，能够得到较好的预测结果；Ｐｒａｂｏｗｏ等　提　

出一种规则分类、监督学习和机器学习相结合的方法，能够　

对电影评论、产品评论和ＭｙＳｐａｃｅ留言进行倾向性分析；Ｌｉ　

等　提出结合Ｋ—ｍｅａｎｓ聚类算法和ＳＶＭ来实现无监督学习　

的方法，并利用此算法进行在线论坛热点的侦探和预测。　

Ｔａｎ等　针对中文文本，通过使用ＭＩ（Ｍｕｔｕａｌ　Ｉｎｆｏｒｍａ．　

ｔｉｏｎ）、ＩＧ（Ｉｎｆｏｒｍａｔｉｏｎ　Ｇａｉｎ）、ＣＨＩ（ＣＨＩ　Ｓｔａｔｉｓｔｉｃｓ）和ＤＦ　

（Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）四种特征选择方法和质心分类、Ｋ　

近邻、Ｗｉｎｄｏｗ分类、贝叶斯分类、支持向量机五种分类方　

法进行实验，提出信息增益特征选择方法与ＳＶＭ进行组　

合，得到较好的预测结果，但是其只是针对１　０２１个文本　

数据进行实验，并未能够将其应用到学生评教留言中，学　

生评教留言具有一定的特殊性，它是对教师教学活动的评　

价，其中含有对教师丰富的情感，并非只是对一件物品的　

评价。针对学生评教留言，本文提出了一个学生评教留言　

的倾向性分析算法。首先，利用ＩＣＴＣＬＡＳ对２　５００条留言　

文本进行分词，其次，进行词性过滤，保留名词、动词、形容　

词和副词四类词语，再次，进行词语过滤，使用基于频率、　

信息增益、条件概率比和期望值差异四种方法进行实验，　

《微型机与应用））２０１

６年第３５卷第３期　Ｓｏｆｔｗａｒｅ　ａｎｄ　Ａｌｇｏｒｉｔｈｍｓ　

然后，生成词频矩阵，并将矩阵进行奇异值分解、降维、去　

除冗余数据操作，最后，利用ＳＶＭ将生成的矩阵进行训练　

和预测。本文特别针对学生评教留言，为实际的教学评价　

活动提供一定的决策支持，能够生成较好的预测结果，使得　

此算法能够更好地应用于实际的教务系统和教学活动中。　

１　算法流程　

本文特别针对学生评教留言，提出一种基于期望值差　

异的词语过滤方法与支持向量机相结合的倾向性分析算　

法，算法流程如图１所示。　

学生评教留言　训练集／测试集　二二　二　

分词　飘　一　

处理矩阵，获　得训练文件　二二　二　训练，获得模　型　词性过滤　二二］［二二　

词语过滤　

生　词频矩阵　二元词语导入　分词词库　

＼　／　《　

预测　二＝＝［＝　学生评教留言　倾向性　

图１算法流程图　

算法流程如下：　

输入：５００条留言作为训练数据，２　０６０条留言作为　

预测数据。　

输出：２　０６０条预测数据的倾向性结果，以及本算法的　正确率和拒识率。　

（１）分词。用ＩＣＴＣＬＡＳ５０分别对训练数据和预测数　

据进行分词。　

（２）词性过滤。保留名词、动词、形容词和副词四类　

词性词语。　

（３）词语过滤。利用基于频率、信息增益、条件概率　

比和期望值差异的过滤方法对词语进行过滤。　（４）生成词频矩阵。以“词项×文档矩阵”的格式生　

成词频矩阵。　

（５）矩阵处理。获得训练文件，对矩阵进行奇异值分　

辞、降维、去除冗余数据后生成训练文件。　

（６）训练。用ＬＩＢＳＶＭ对训练集进行训练，获得训练　

型。　

《微型机与应用）２０１６年第３５卷第３期　（７）预测。将预测集导人ＬＩＢＳＶＭ，利用上一步获得　

的训练模型进行预测。获得倾向性结果，计算本算法的正　

确率和拒识率。　

２学生留言的倾向性分析　

２．１　学生留言的预处理　

２．１．１　训练数据的选取　

训练数据的质量直接决定预测的效果，训练数据是需　

要精挑细选的一些留言数据，必须具有良好的分类代表　

性，选取遵循以下原则：　

（１）需要过滤掉所有空留言、只含有标点符号的留言　

以及不包含任何词语的文本。　

（２）重复性留方过滤。完全重复的留言，以及留言文　

字相同但是有标点符号不同的文本需要删除，因为它们的　

向量基本相同。向量相同的留言放到ｌｉｂｓｖｍ中处理只会　增加计算量。　

（３）训练数据中各类的数目要大体相当。　

（４）删除部分表达意思相近的留言。　

（５）训练数据不宜选取过多，也不宜过少，如果过多　

就会存在很多重复性的向量，如果过少，训练集太小，不能　

很好地进行预测。训练集的大小在５００条左右即可。　

基于以上选取数据的原则，本文从数据库中抽取了　

５００条数量相当的差评留言和好评留言。　２．１．２双重否定短语的确定　

一般情况下，一条留言中出现否定词就会被判定为差　

评。例如：“讲课太过于粗糙，条例不太清晰”，这样的留　

言中含有“不”，会被判定为差评，这样进行判定看似是理　

所当然的，实则不然，例如留言“注意启发学生课外阅读，　

不拘泥于课本，能调动学生积极性，活跃课堂气氛”，其中　

含有“不”，但是“不”后面跟的是“拘泥”，在语言中，双重　

否定表达的是肯定意思，根据语义分析这是好评，但是训　

练器把它标记成差评了，这样不符合客观事实。为了解决　这个问题，本文把两个表达否定意义的词语组合成一个短　

语，形成一个表示肯定意义的短语，优先对这些组合起来　

的二元词语匹配，并在后续处理过程中把这些短语当做一　

个词语对待。　

在留言中经常出现的双重否定词语包括：不拘泥、不　

单纯、不忘、不脱离、不失、不死、不死板、不拘于、不枯燥、　

不只、不少、不错、不容易等等。　２．２特征词的四种选择标准　

２．２．１　基于频率的过滤方法　

基于频率的过滤方法中，一条留言中一个词语出现一　

次以上都是按照一次计算。本文采用了长匹配优先的方　式对其进行匹配。如果一个词语包含另一个词语，则被包　

含的词语的次数不能加一，例如第一条留言中出现“清　楚”，包含“清”，第二条留言中包含“清”，则“清”出现　的次数只能是一次，而不是两次，还有一种特殊情况是　

欢迎网上投稿ｗｗｗ．ｐｃａｃｈｉｎａ．ｃｏｍ　

２５

e商务文档

学生评教留言的倾向性分析

相关文档推荐：