当前位置:文档之家› 文本情感分析论文总结

文本情感分析论文总结

文本情感分析赵妍妍,秦兵,刘挺- 软件学报, 2010 - 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。

情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。

一、情感信息抽取(评价词语、评价对象、观点持有者)1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。

2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。

3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。

4.组合评价单元的抽取:主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。

评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。

二、情感信息分类1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语特征和词性特征、位置特征、评价词特征)。

三、情感信息的检索与归纳1.情感信息检索2.情感信息归纳基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。

基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。

基于新闻评论的文摘四、情感分析的评测与资源1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),国内的COAE。

2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。

3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英文),HowNet评价词词典(简体中文、英文)问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;基于层次结构的多策略中文微博情感分析和特征抽取谢丽星,周明,孙茂松- 中文信息学报, 2012 - 三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。

主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。

主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。

主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文微博消息句子构成特征:首句、尾句情感极性,正负中情感句数主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。

本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。

主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。

本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。

Cross-Lingual Mixture Model for Sentiment Classification X Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - 问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。

解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。

思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。

给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。

另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。

Cross-Domain Co-Extraction of Sentiment and Topic LexiconsF Li, SJ Pan, O Jin, Q Yang, X Zhu - … of the 50th Annual Meeting of the …, 2012 - 问题:之前的工作表明监督方法的有效性,但是却需要人工标注训练数据。

解决:本文提出一个domain自适应的方法来得到情感和主题词典,不需要任何标注数据,但是需要另外一个相关领域的标注数据。

首先,在目标域中生成一些有高置信度的情感和主题词种子,然后提出一个新的Relational Adaptive bootstraPping算法根据源域中标注数据的情感词和主题词的关系来在目标域中扩展种子,进而得到目标域的情感主题词典。

1.情感词种子生成:源域中的情感词作为候选,用公式(1)得到得分最高的top r 个词汇作为情感词种子2.主题词种子生成:在源域中抽取出情感词与主题词的所有pattern及主题词作为候选,根据公式(2)得到pattern的得分,Acc(Rj)是在源域中pattern Rj的准确率,Freq(Rj)是在目标域中的出现频率。

选取得分最高的top r个pattern作为种子,然后根据公式(3)选取得分最高的top r 个词作为主题词种子。

B是情感词种子集合,A是满足wi,wk的模式集合。

3.种子扩展:Twitter Sentiment Classification using Distant SupervisionA Go, R Bhayani, L Huang - CS224N Project Report, Stanford, 2009 - Tweets出现在新闻标题中或者维基百科中,则认为其为中性。

Tweets的特性:长度,可用数据多,语言模型(数据格式杂乱,错误常出),没有特定领域。

方法:分类器用了NB,最大熵,SVM,特征用了unigrams,bigrams,两个的结合,unigrams 结合POS(词性标注) tags。

训练数据:用twitter API检索:)和:(下载包含emotion(分为正负极性两种表情符号)的tweets 数据,对数据进行预处理(去掉emotions,删去有两种极性emotion的tweet,删去重复数据等等),最终得到1600000个tweets。

训练数据中要把emotion去掉,引发的问题是由于训练数据没有用emotion特征,因而测试数据中有emotion特征时,对其分类无影响,这是一个需要解决的问题。

测试数据:用不同的领域的query term检索tweets,对其标注形成测试数据。

实验后发现,单独的unigrams比bigrams效果好,因为bigram数据稀疏,两种结合的特征,NB和最大熵正确率提高,但是SVM降低。

而POS特征对分类无明显影响。

以后需要解决的问题:语义问题,特殊领域的情感分类,中性tweets的处理,其他语言的情感分类,测试数据中emotion特征的应用。

Target-dependent Twitter Sentiment ClassificationL Jiang, M Yu, M Zhou, X Liu, T Zhao - ACL, 2011 - 问题:以往的工作大多是target无关的情感分析,即只分析情感,而没有考虑情感对应的对象;由于tweets的特殊性(短小且多歧义,一个tweets中可能涉及多个target,或者同一个tweet中有很多与target无关的说明),情感分析时会造成内容不够,数据稀疏。

所以有必要进行target相关的情感分析,同时扩展相关的tweets,综合分析得到结果。

方法:采用三步进行分析:主客观分类,极性分类,基于图的优化。

前两步采用相同的特征,SVM分类器。

1.数据预处理:tweets标准化,词性标注,词干,句法分析2.target无关的特征:词、标点、表情符号、hashtag、情感词典特征(即句子中有多少正负极性词语)3.Target扩展:首先,包含target的名词短语作为扩展目标;然后,与target有co-reference的也作为扩展目标;用点互信息求出与target最相关的K个名词和名词短语,抽取出所有扩展目标的中心名词,如果其与target的点互信息大于阈值,则也作为扩展目标。

Target有关的特征:依靠句法分析树,得到多种特征,比如,I love iPhone得到love_arg2,Flower is beautiful得到Flower_arg1,等等。

4.基于图的情感优化:相关tweets的获取:retweets(转发的),同一人发的包含target的tweets,对该tweet 的回复。

对于不同扩展,将其用不同的连线与原本的tweet连接,形成图。

进而:对于图中的每个tweet,计算出p(c|t,G),输出其中p最大的一个。

5.实验:实验的训练和测试数据用不同的query term(Obama,Google,iPad,Lakers,Lady Gaga)从twitter上获取,人工标注其极性,得到459个+,268个-,1212个中性tweets。

Future work:探索target与扩展target的关系,哪些情感有相关,哪些不会。

相关主题