当前位置:文档之家› 学生评教留言的倾向性分析

学生评教留言的倾向性分析

Software and Algorithms 

学生评教留言的倾向性分析 

李效伟 

(山东女子学院信息技术学院,山东济南250300) 

摘 要:学生评教留言经过逐年累积,已经形成一个巨量的信息资源,如何进行挖掘和分析这些资源已经成为一项紧迫的任务。 

本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析,采用ICTCLAS分词软件进行分词,利 用MATLAB软件进行矩阵奇异值分解和降维,使用支持向量机进行训练和预测数据,从而能够对学生留言的情感倾向性给出很 

好的预测结果。最后通过实例说明了文中算法的有效性。 关键词:倾向性分析;分词;特征选择;降维;支持向量机 中图分类号:TP391 文献标识码:A 文章编号:1674·7720(2016)03-0024—04 

引用格式:李效伟.学生评教留言的倾向性分析[J].微型机与应用,2016,35(3):24·27,30. 

Orientation analysis for student comments 

Li Xiaowei 

(School of Information Technology,Shandong Women’S University,Jinan 250300,China) 

Abstract:In the teaching evaluation system of most universities,student comments accumulate year by year,and have been a source with huge amount of information.HOW to use these comments to reflect the capability of a university tO enhance and improve its level and methods of teaching has been an urgent lask.This paper fell in the scope of text orientation and gave orientation analysis of student comments using feature selection such as ̄equency,information gain,probability ratio,and diference in expectation,and used the software named ICTCLAS tO get 

the segmentation of comment text.Then it used LIBSVM to train and predict data and used Matlab software to run singular value decomposition and dimensionality reduction.The system can give emotional tendentiousness as the result of the comment analysis.Examples are given to show the performance of our algorithm. 

Key words:orientation analysis;segmentation;feature selection;dimension reduction;support vector machine 

O 引言 

学生评教留言经过逐年累积,已经形成一个巨量的信 息资源,对其进行数据挖掘已经成为刻不容缓的工作,如 

何更好地利用大量的留言体现了一个学校对其教学水平 

和方法进行提升和改进的能力,一个高水平的学校应积极 

发展对学生留言的挖掘,对其进行分析、处理并最后得出结 论,及时了解和分析教师的教学现状和学生们的听课反馈。 

国内外相关学者对文本倾向性分析进行了大量研 

究 ,虽然英文的倾向性研究已经很成熟并得到了丰硕 成果 ,但是中文文本的倾向性研究还处在发展阶段, 有着广阔的发展空间。柴玉梅等…通过分析中文文本内 

容褒贬色彩的客观性和褒贬倾向性分类的可行性,将特征 

选择方法和褒贬特征提取技术结合起来,实现了名人网页 

的褒贬倾向性分类;唐慧丰等 通过对中文文本不同分类 

方法的对比分析,提出采用BiGrams特征表示方法、信息 

增益特征选择方法和SVM分类方法,在足够大训练集和 选择适当数量特征的情况下,在情感分类方面取得较好的 

效果;Tan等 针对中文文本,通过对四种特征选择方法和 

基金项目:山东省高等学校人文社会科学研究项目(J14WJ02);全国统 计科学研究计划(2012LY022);山东省自然科学基金(ZR2011FL005) 

24 五种学习方法进行实验,提出信息增益特征选择方法与 

SVM进行组合,能够得到较好的预测结果;Prabowo等 提 

出一种规则分类、监督学习和机器学习相结合的方法,能够 

对电影评论、产品评论和MySpace留言进行倾向性分析;Li 

等 提出结合K—means聚类算法和SVM来实现无监督学习 

的方法,并利用此算法进行在线论坛热点的侦探和预测。 

Tan等 针对中文文本,通过使用MI(Mutual Informa. 

tion)、IG(Information Gain)、CHI(CHI Statistics)和DF 

(Document Frequency)四种特征选择方法和质心分类、K 

近邻、Window分类、贝叶斯分类、支持向量机五种分类方 

法进行实验,提出信息增益特征选择方法与SVM进行组 

合,得到较好的预测结果,但是其只是针对1 021个文本 

数据进行实验,并未能够将其应用到学生评教留言中,学 

生评教留言具有一定的特殊性,它是对教师教学活动的评 

价,其中含有对教师丰富的情感,并非只是对一件物品的 

评价。针对学生评教留言,本文提出了一个学生评教留言 

的倾向性分析算法。首先,利用ICTCLAS对2 500条留言 

文本进行分词,其次,进行词性过滤,保留名词、动词、形容 

词和副词四类词语,再次,进行词语过滤,使用基于频率、 

信息增益、条件概率比和期望值差异四种方法进行实验, 

《微型机与应用))201

6年第35卷第3期 Software and Algorithms 

然后,生成词频矩阵,并将矩阵进行奇异值分解、降维、去 

除冗余数据操作,最后,利用SVM将生成的矩阵进行训练 

和预测。本文特别针对学生评教留言,为实际的教学评价 

活动提供一定的决策支持,能够生成较好的预测结果,使得 

此算法能够更好地应用于实际的教务系统和教学活动中。 

1 算法流程 

本文特别针对学生评教留言,提出一种基于期望值差 

异的词语过滤方法与支持向量机相结合的倾向性分析算 

法,算法流程如图1所示。 

学生评教留言 训练集/测试集 二二 二 

分词 飘 一 

处理矩阵,获 得训练文件 二二 二 训练,获得模 型 词性过滤 二二][二二 

词语过滤 

生 词频矩阵 二元词语导入 分词词库 

\ / 《 

预测 二==[= 学生评教留言 倾向性 

图1算法流程图 

算法流程如下: 

输入:500条留言作为训练数据,2 060条留言作为 

预测数据。 

输出:2 060条预测数据的倾向性结果,以及本算法的 正确率和拒识率。 

(1)分词。用ICTCLAS50分别对训练数据和预测数 

据进行分词。 

(2)词性过滤。保留名词、动词、形容词和副词四类 

词性词语。 

(3)词语过滤。利用基于频率、信息增益、条件概率 

比和期望值差异的过滤方法对词语进行过滤。 (4)生成词频矩阵。以“词项×文档矩阵”的格式生 

成词频矩阵。 

(5)矩阵处理。获得训练文件,对矩阵进行奇异值分 

辞、降维、去除冗余数据后生成训练文件。 

(6)训练。用LIBSVM对训练集进行训练,获得训练 

型。 

《微型机与应用)2016年第35卷第3期 (7)预测。将预测集导人LIBSVM,利用上一步获得 

的训练模型进行预测。获得倾向性结果,计算本算法的正 

确率和拒识率。 

2学生留言的倾向性分析 

2.1 学生留言的预处理 

2.1.1 训练数据的选取 

训练数据的质量直接决定预测的效果,训练数据是需 

要精挑细选的一些留言数据,必须具有良好的分类代表 

性,选取遵循以下原则: 

(1)需要过滤掉所有空留言、只含有标点符号的留言 

以及不包含任何词语的文本。 

(2)重复性留方过滤。完全重复的留言,以及留言文 

字相同但是有标点符号不同的文本需要删除,因为它们的 

向量基本相同。向量相同的留言放到libsvm中处理只会 增加计算量。 

(3)训练数据中各类的数目要大体相当。 

(4)删除部分表达意思相近的留言。 

(5)训练数据不宜选取过多,也不宜过少,如果过多 

就会存在很多重复性的向量,如果过少,训练集太小,不能 

很好地进行预测。训练集的大小在500条左右即可。 

基于以上选取数据的原则,本文从数据库中抽取了 

500条数量相当的差评留言和好评留言。 2.1.2双重否定短语的确定 

一般情况下,一条留言中出现否定词就会被判定为差 

评。例如:“讲课太过于粗糙,条例不太清晰”,这样的留 

言中含有“不”,会被判定为差评,这样进行判定看似是理 

所当然的,实则不然,例如留言“注意启发学生课外阅读, 

不拘泥于课本,能调动学生积极性,活跃课堂气氛”,其中 

含有“不”,但是“不”后面跟的是“拘泥”,在语言中,双重 

否定表达的是肯定意思,根据语义分析这是好评,但是训 

练器把它标记成差评了,这样不符合客观事实。为了解决 这个问题,本文把两个表达否定意义的词语组合成一个短 

语,形成一个表示肯定意义的短语,优先对这些组合起来 

的二元词语匹配,并在后续处理过程中把这些短语当做一 

个词语对待。 

在留言中经常出现的双重否定词语包括:不拘泥、不 

单纯、不忘、不脱离、不失、不死、不死板、不拘于、不枯燥、 

不只、不少、不错、不容易等等。 2.2特征词的四种选择标准 

2.2.1 基于频率的过滤方法 

基于频率的过滤方法中,一条留言中一个词语出现一 

次以上都是按照一次计算。本文采用了长匹配优先的方 式对其进行匹配。如果一个词语包含另一个词语,则被包 

含的词语的次数不能加一,例如第一条留言中出现“清 楚”,包含“清”,第二条留言中包含“清”,则“清”出现 的次数只能是一次,而不是两次,还有一种特殊情况是 

欢迎网上投稿www.pcachina.com 

25

相关主题