文本情感分析综述摘要:近年来随着计算机、人工智能、心理学等学科交叉领域的不断延伸,情感分析引起了很多研究人员的兴趣。
情感分析主要是对主观性文本进行挖掘与分析,从中获取有价值的信息。
本文针对中文文本情感分析的研究现状与进展进行总结。
首先介绍文本情感分析的内容,并按粒度层次,从词语级、语句级介绍相关的技术,分析了近年来的一些研究进展。
接着介绍了中文文本情感分析的方法,最后总结了中文文本情感分析的研究难点与未来的研究方向。
关键词:文本;情感分析;倾向性;情感计算;粒度中图分类号:tp391 文献标识码:a 文章编号:1007-9599 (2012)18-0000-021 情感计算概述情感计算是人工智能的一个热门、前沿的研究领域,它的目标是要赋予计算机类似人一样的观察、理解和生成各种情感特征的能力,最终能够像人一样自然亲切的交流。
随着internet的发展,以文本形式出现的信息越来越多,已经成为最容易获取,也是最为丰富的一种交互资源。
1.1 文本情感分析的内容。
美国mit媒体实验室的picard教授认为情感计算主要包括三个部分,即情感识别、情感发生、情感表达。
内容具体可分为九个方面:情感机理、情感信息的获取、情感模式识别、情感的建模与理解、情感合成与表达、情感计算的应用、情感计算机的接口、情感的传递与交流、可穿戴计算机。
关于文本的情感计算是文本情感分析中的核心问题之一,文本情感分析,广义上包含对文本的主客观性分析,同时也包含了对主观信息的倾向性分析及强度分析。
倾向性分析也就是我们通常所说的褒贬性分析,一般指说话人对某事某物的看法或观点,通常以“表扬——批评”、“赞同——反对”这样具有较强烈情感倾向的词汇来分类;而强度分析指的是对同一事物所持观点的语气强烈程度,如:“我喜欢文学”与“我热爱文学”,两个句子同样表达了对文学的喜爱,但程度不同,“热爱”的语气强烈程度要远远超过“喜欢”。
文本情感分析涉及计算机、语言学、心理学、人工情感、认知科学、信息检索及数据挖掘等多个学科,并且还在不断扩大,研究人员所面对的是一个复杂的交叉学科领域,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。
近年来,一些学者尝试从不同角度着手研究这一内容,并取得了一些进展。
文献1提出了使用击键力学结合文本输入的方法识别出打字者的情绪状态,在其实验中,通过收集打字者的打字节奏和击键特征,进而分析计算,最终对紧张、放松、悲伤和疲劳四种情绪状态达到了88%的识别率,对愤怒和兴奋两种状态,有84%的识别率。
国内对文本情感分析这一课题的研究起步较晚,目前的研究多集中在情感倾向性分析上,文献2提出了一种基于语言建模的文本情感分类的方法,将文本的情感倾向标记为“赞扬”或“批评”,提出了从训练数据中分别估计出代表赞扬和批评两种情感倾向的语言模型,,然后通过比较测试文本自身的语言模型和这两种训练好的情感模型之间的kul-lback-leibler距离,从而进行评论性文章的分类,其缺点是难于构造接近真实语言的模型;文献3提出了情感倾向性五元模型,从情感倾向性观点的持有者、倾向性的来源、倾向性的指向、倾向性的立场和倾向性的种类五个方面刻画中文文本情感倾向性的概念,丰富了情感倾向性的表示方法,一定程度上提高了文本情感倾向性判断的精度。
1.2 文本情感分析的粒度。
按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级几个研究层次。
在这个分类层次上,有不少学者进行了相关的研究,其中最常见的方法是从词语级入手,提取文章中的基础情感词,分别计算其权重后相加,进而扩展到词句和篇章的倾向性判别上。
文献4首先构建喜、怒、哀、惧基准情感词,然后对情感词特征进行分析,进而挖掘潜在情感词,最后使用支持向量机分类的方法融合词特征、词性特征、语义特征等各种特征,对句子进行情感识别及分类;文献5采用基于基准词的方法先提取文本中的情感特征词,然后根据tf-idf模型计算情感特征词在文本中的权重,最后,对所有的情感词进行加权平均,得出整个文本的情感倾向。
从国内研究的情况来看,到目前为止,大部分的情感倾向识别的工作主要集中在词汇级或文档级,但诸如问答系统、摘要提取、挖掘产品评论等都需要句子级或者短语级的倾向分析,而这些方面的研究却较少。
针对这一问题,文献6进行了基于短语模式的文本情感分类工作,采用“情感倾向定义”权重优先的计算方法获得短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算来识别短语的倾向性和倾向强度,这种方法对短语的情感倾向识别效果较好,但没能实现向其它粒度文本的扩展。
文献7提出一种提取中文文本情感主题句子的方法。
首先评估文本中语义概念的概括和归纳能力,确定文本主题概念。
将包含主题概念的句子作为候选主题句子,计算各个候选句子的重要度,最终确定文本主题句。
然后采用条件随机场模型,选取情感倾向特征和转移词特征训练模型,从文本主题句集合中提取情感主题句。
另外按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析等。
这方面也有大量学者进行了研究工作,但都局限于一些特定的领域,其方法不具有普遍性。
文献8对近年来文本情感分析的研究成果进行了综述,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,对后续研究有一定帮助。
2 文本情感分析的主要研究方法脸谱的情感分析中人的额眉、眼睛和口型等图片的辨认是决定情感的关键因素,而声音的情感分析不仅包含语义,更多的是可以从声音的频率和音高来判别情感。
文本的情感分析不同于脸谱和声音等情感分析,主要集中在对上下文及词汇和语义的分析上,因为情感发生的环境及刺激因素等都是通过语言表述出来,而不是听到、看到和触摸到的真实的刺激,所以对语言理解的准确与否是文本情感分析的关键,也是最重要的部分,同时情感的发生与表达者的内在情绪有很大的联系。
基于这样的考虑,文献9将认知语用学和情绪心理学相关知识引入到文本情感计算中,提出一个新的文本情感认知模型。
它从情感的发生机制出发,以多种情感图式为基础,考虑否定状态下情感的极性关系等多方面因素,拓宽了研究的维度和理论背景,提供了新的研究思路。
常用的文本情感分析方法可以归纳成以下几种:关键词识别、机器学习、基于集合的方法、基于词典的方法。
关键词识别:首先,在系统中事先存放大量包含某些关键词的模式,每个模式都与一个或多个解释相对应。
系统将当前输入句子同这些模式逐个匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成份对句子意义会有什么影响。
所以,关键词识别是一种近似匹配技术,它的最大优点是允许输入的句子不一定要遵循规范的语法。
但这种分析技术的不精确性也正是这种方法的主要弱点,往往会导致错误的分析。
这种方法的其它的缺陷也是显而易见的:(1)当句子中有否定词时不能很好的识别;(2)当句子中不含或没有明显的情感关键词时,方法失效。
针对隐式情感句难于识别的问题,文献10提出了一种基于语义特征的文本情感倾向识别方法,通过增加语义特征,使得文本的优秀特征增多,同时文本的情感倾向性更加明确,提高了情感倾向识别的性能。
基于机器学习的传统文本分类技术:使用分类器如朴素贝叶斯(nativebayes,nb)、最大熵(maximumentrop,me)、支持向量机(supportveetormaehine,svm)等对文本进行情感倾向分类,这种方法主要使用情感词/评价词、词语共现对、句法模板、主题相关特征等作为分类特征,可分为有监督和无监督学习两种方法。
其中,无监督的机器学习是假设己经有一些已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感倾向性进行推断,这种方法存在着对种子集的依赖性比较强的问题;有监督的机器学习,首先对情感倾向分析语料库进行手工标注。
标注的级别包括文档集的标注(即只判断文档的情感倾向性)、短语级标注和分句级标注。
在这些语料的基础上,利用词语的共现关系、搭配关系或者语义关系,以判断词语的情感倾向性,这种方法需要大量的人工标注语料库。
基于集合的方法:用点互信息so-pmi,使用一个词和强烈表示正面倾向的词“excellent”的互信息,减去它和强烈表示反面倾向的词“poor”的互信息,计算这个词的情感倾向。
其理论假设是根据自然语言文本里的一个现象:语义倾向性越相似的两个词,在同一篇文档中共现的概率越大,由于该算法不能直接用于中文的情感计算,文献11在对中文文本特点进行分析的基础上,提出了一种新型的情感倾向计算模型。
该模型采用了改进的逐点分析方法so-pmi,基于词语对类别的倾向性进行分类,判别准确率可达80%以上。
基于词典的方法:与无监督的机器学习方法有相似性,这种方法的主要思想是:给定一组己知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未知词的情感倾向进行推断。
这种方法对种子词数量的依赖比较明显。
例如利用英文的wordnet和中文的hownet等来判断词语的情感倾向。
另外,依据sentiwordnet判别候选英语词语极性,并将候选英语词语极性映射到目标汉语情感词语上,进而达到判别汉语情感词语极性的目的,其缺点也很明显:部分词语的极性经过翻译发生了变化。
3 文本情感分析需要解决的问题自然语言在人类的交流过程中有着不可替代的作用,也是一种最直接、最有效的情感表达方式,正是由于自然语言的丰富多样性,加之人类情绪的复杂多变性,使得计算机要理解文本中所蕴含的情感信息变得相当困难,目前中文文本情感分析还面临着诸多问题:(1)由于中文语法结构的复杂性及语义的多样性,一些英文文本情感分析技术还不能很好地实现向中文文本的移植;(2)目前国内的情感分析研究大多停留在词句分析和特定领域的情感倾向挖掘方面,缺乏一些细粒度的研究工作,如中文标点符号对情感表达的影响、不同语境下的情感分析问题等;(3)目前学术界对情感基本类型的划分存在不同意见,缺乏统一的标准和原则。
参考文献:[1]identifying emotional states using keystroke dynamics chi 2011·session:emotional states/reganl.mandryk.[2]胡熠,陆汝占.基于语言建模的文本情感分类研究[j].计算机研究与发展,2007.[3]薛丽敏,李殿伟,肖斌.中文文本情感倾向性五元模型研究[j].通信技术,2011,7.[4]杨经,林世平.基于svm的文本词句情感分析[j].计算机应用与软件,2011,9.[5]张彬,杨志晓.基于基准词的文本情感倾向性研究[j].computer knowledge and technology,vol.7,no.8,march 2011.[6]李钝,曹付元,曹元大,万月亮.基于短语模式的文本情感分类研究[j].计算机科学,2008,vol1,35 l 1 4.[7]樊娜,蔡皖东,赵煜,李慧贤.中文文本情感主题句分析与提取研究[j].计算机应用,2009,4.[8]赵妍妍,秦兵,刘挺.文本情感分析[j].journal of software,vol.21,no.8,august 2010.[9]徐琳宏,林鸿飞.认知视角下的文本情感计算[j].计算机科学,2010,12.[10]何坤,李伟生,杨勇.基于语义特征的文本情感倾向识别研究[j].计算机应用研究,2010,3[11]徐群岭.一种新型的中文文本情感计算模型[j].计算机应用与软件,2011,6.。