当前位置:文档之家› 文本情感分类研究综述

文本情感分类研究综述

Web文本情感分类研究综述王洪伟/刘勰/尹裴/廖雅国2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sen time nt Classificati on on Web Text【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwa ng@t on .c n 。

同济大学经济与管理学院,上海200092;刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。

同济大学经济与管理学院,上海200092;尹裴,女,1986年生,硕士研究生,研究方向:商务智能。

同济大学经济与管理学院,上海200092;廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。

香港理工大学电子计算学系,香港【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。

为此,本文对Web文本情感分类的研究进行综述。

将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。

其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。

分析了情感分类中的语料库选择和研究难点。

最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Webcan help us to identify users' implicitsen time nts and find the evoluti on laws of their emoti on. To this end, this paper is a survey about the sen time nt classificati on on the Web text. We divided the process of classificati on into three categories:subjective and objective classification,polarity iden tificati on and in ten sity ide ntificati on and respectively summarize the rese nt research achieveme nts in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural Ianguage processing. What is more, the choice of corpus and pote ntial research problems are discussed. At last, this paper summarized the status quo of applicatio n and poin ted out the direct ion of future research.【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classificati on/Survey/Subjective text随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。

特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。

这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。

如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。

所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。

其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。

因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。

这类问题也被称为情感分类(sentiment classification) 。

在已有的研究中,情感分类也被称为意见挖掘(opi nion mi nin g)[1,2] 。

为了表述一致,本文统称为情感分类。

情感分类涉及多个领域,如自然语言处理、人工智能、自动文本分类、文本挖掘、心理学等。

它不同于传统的基于主题自动文本分类,后者分类的依据是文本的主题,如属于军事类还是体育类,而情感分类主要用来判别自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息[3]。

由于Web文本是以非结构化形式存在的,因此对文本进行情感分类是一个复杂的过程,包括:主客观文本分类、情感极性判别、情感强度判别。

前者是情感分类的预处理工作,后两者才是真正意义上的情感分类。

为了避免混淆,我们将后两者统称为情感识别(见图1)。

图1描述了从原素材到得出情感结果的整个情感分类过程。

其中,原素材中的文本可以是句子或者是整篇文章,它们所对应的分类任务分别为句子情感分类和文档情感分类。

为了减少干扰,提高情感分类的精度,首先要对文本进行主观性识别,即主客观文本分类。

只有带有主观色彩的文本才会蕴含着作者的情感,所以情感识别的对象是主观文本。

情感识别分为极性判别和强度判别两个任务。

极性分类是识别主观文本的情感是正面的赞赏和肯定还是负面的批评与否定。

而强度判别则是判定主观文本情感倾向性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。

在整个情感分类过程中,还涉及分类前的预处理技术,包括分词、词性标注、平滑、停用词和缩词的处理等语言处理技术,这些技术相对成熟,不再赘述。

下面从主客观文本分类和情感识别两个方面来总结情感分类的研究现状。

所谓“主观性”是指在自然语言中用来表达意见和评价的语言特性[4]。

主观性文本表达的是说话者对某人、某物或某事的态度和看法,包含个人的主观情感色彩。

与之相对应的客观性文本则描述客观存在的事实,说话者往往持有中立和客观的情感。

在表述上,主客观文本也有明显的差异,客观性文本通常采用比较正式的陈述句,而主观性文本因为强调自我表达,表述上比较自由,偏口语化,比如“这款手机酷毙啦!”。

主客观文本分类研究已经展开,并应用在信息检索和信息抽取等领域[5]。

主客观文本分类与其他文本分类类似,可以从篇章、句子和词语三个层面展开,用到的方法主要是机器学习算法。

Wiebe等很早就对主客观文本分类问题进行了研究[4〜11]。

Wiebe和Bruce 将某些词类(代词、形容词、基数词、情态动词和副词)、标点和句子的位置作为特征值,设计了针对句子级别的NB分类器⑹。

在此基础上,Wiebe[5]又将某些词性和基于词典的语义词作为特征项,显著提高了分类器的分类效果。

Wiebe 和Wilson还针对基于篇章层面的分类方法进行了研究[7]。

通过计算每篇文档中出现的主观性词语数量,用KNN分类器来判断篇章的主客观性,取得了较好效果。

图1情感分类的主要过程Yu等利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类。

其中NB分类器在原有研究的基础上采用词、2-gram、3-gram 和词类、具有情感倾向的词序列、主语和其直接修饰成分等作为特征项,对主观句识别的查准率和查全率达到了80%- 90%[12]。

Pang和Li将句子间的情感联系作为分类的一个重要因素,用最小图割(Minimum cuts)的方法来寻找上下文语句的关系以提高分类精度。

它的划分原理是使成本公式最小:L + 工indi (x ) + 2 assoc (x v x^)r其中%句子,G是类别冷羁(切指单根据瓠的特征将其划分为/类的偏好得分(x h x k)指斷和埶属于同一类的得分旧。

中文语境下主客观文本分类具有一定的复杂性,而且对中文主观性文本的判别起步较晚,大多数情感分析研究都是人为抽取主观性文本。

林斌将影视内容介绍和影视评论分别视为客观文本和主观文本,采用互信息量(Ml, Mutual Information)计算影视评论中每个词语的互信息量,并由大到小排序,取最靠前的275个词语,并将它们两两组合,再计算每对组合在影视评论中的互信息量,最后得到“我想”“我应该”等具有主观倾向的75个词语组合,并将其用于句子主客观性的判断,总体的准确率达到了78.42%[14]。

叶强和张紫琼等提出一种根据连续双词词类组合模式(2-POS)自动判别句子主客观性程度的方法。

首先在N-POS语言模型的基础上,利用CHI统计方法提取中文主观文本词类组合模式,利用这些组合模式给每个句子赋以主观性得分,将得分高于设定阈值的句子判定为主观性文本。

实验表明,当阈值为0.12时,主观文本的分类查准率和查全率能达到76%[15]。

需要指出,由于中英文语言结构及中西方文化的差异,使得中文的情感流露方式具有特殊性和复杂性,这给中文文本的情感分析带来挑战。

与英文文本多都应用机器学习不同,中文文本的主客观分类主要采取语义方法,而且分类效果也不够理想,相比于英文能达到90%左右的精度,中文的研究分类精度还不够高。

这主要由于影响中文文本主客观判断的因素远远比英文多而复杂,除了词义、词性之外,词语的用法也会影响到文本的主客观性质。

因此在今后中文文本主观性判别研究中,除了引入机器学习算法外,还要注意考虑中文词法和句法的特殊功能。

另外,一些研究将主客观分类和褒贬情感分类同时看作三分类问题,将文本分成为“褒义”、“贬义”、“客观”。

前两类归为主观文本,后者视为客观文本。

王根和赵军指出这种观点忽略了两个任务所用特征的不同,即将主客观和褒贬极性的特征夹杂在一起,影响了分类效果[16]。

本文认为,主客观分类中的“客影耗资两亿,将于明天在上海万达影城上演首映”;“这部电影整体上还算四平八稳,跟我的预期有点差距,但也不算失望”。

前一句是陈述客观事件,是客观文本。

而后一句显然是作者的主观评价,却不带有明显的褒或贬。

因此对它的分类过程是:首先将其归为主观性文本,然后通过情感分析再归为情感类别中的“客观”(或“中立”)类。

所以,非褒非贬并不是作者没情感,而是情感倾向并不明显,持中立态度。

如果将双分类任务看成一个多分类问题的话,会错误地把带有主观性但情感倾向不明显的文本分类为客观性文本,影响情感分类的科学性。

相关主题