当前位置:文档之家› Web文本情感分类研究综述

Web文本情感分类研究综述


为了避免混淆 ,我们将后两者统称为情感识别(见图
Wiebe 等很早就对主客观文本分类问题进行了
1) 。
研究[4 ~ Leabharlann 1] 。 Wiebe 和 Bruce 将某些词类 (代词 、形容
图 1 描述了从原素材到得出情感结果的整个情 词 、基数词 、情态动词和副词) 、标点和句子的位置作
感分类过程 。 其中 ,原素材中的文本可以是句子或 为特征值 ,设计了针对句 子级别的 NB 分类器[6] 。
感分类 。 情感分类涉及多个领域 ,如自然语言处理 、 情感色彩 。 与之相对应的客观性文本则描述客观存
人工智能 、自动文本分类 、文本挖掘 、心理学等 。 它 在的事实 ,说话者往往持有中立和客观的情感 。 在
不同于传统的基于主题自动文本分类 ,后者分类的 表述上 ,主客观文本也有明显的差异 ,客观性文本通
的情感信息 。 因此 ,情感分析的一个重要问题就是 处理等语言处理技术 ,这些技术相对成熟 ,不再赘
情感倾向性的判断 ,即判断作者的观点是褒义的 、积 述 。 下面从主客观文本分类和情感识别两个方面来
极的 ,还是贬义的 、消极的 。 这类问题也被称为情感 总结情感分类的研究现状 。
分类(sentiment classification) 。
者是整篇文章 ,它们所对应的分类任务分别为句子 在此基础上 ,Wiebe[5] 又将某些词性和基于词典的语
情感分类和文档情感分类 。 为了减少干扰 ,提高情 义词作为特征项 ,显著提高了分类器的分类效果 。
感分类的精度 ,首先要对文本进行主观性识别 ,即主 Wiebe 和 Wilson 还针对基于篇章层面的分类方法进
1 文本情感分类概述
2 主客观文本分类现状
所谓“主观性”是指在自然语言中用来表达意见
在已有的研究中 ,情感分类也被称为意见挖掘 和评价的语言特性[4] 。 主观性文本表达的是说话者
(opinion mining)[1 ,2] 。 为了表述一致 ,本文统称为情 对某人 、某物或某事的态度和看法 ,包含个人的主观
得分[13] 。
中文语境下主客观文本分类具有一定的复杂
性 ,而且对中文主观性文本的判别起步较晚 ,大多数
情感分析研究都是人为抽取主观性文本 。
林斌将影视内容介绍和影视评论分别视为客观
文 本 和 主 观 文 本 ,采 用 互 信 息 量 (MI ,mutual
information)计算影视评论中每个词语的互信息量 ,
关键词 Web 文本 情感分类 综述 主观性文本
Literature Review of Sentiment Classification on Web Text
Wang Hongwei1 ,Liu Xie1 ,Yin Pei1 and Liu N .K .James2
(1畅 School of Economics and Management , Tongji University , Shanghai 200092 ; 2畅 Department of Computing , Hong Kong Polytechnic University ,Hong Kong)
摘要 对用户发表在 Web 上的评论进行分析 ,能够识别出隐含在其中的情感信息 ,并发现用户情感的演变规
律 。 为此 ,本文对 Web 文本情感分类的研究进行综述 。 将情感分类划分为三类任务 :主客观分类 、极性判别和强度 判别 ,对各自的研究进展进行总结 。 其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自 然语言处理的识别方法 。 分析了情感分类中的语料库选择和研究难点 。 最后总结了情感分类的应用现状 ,并指出 今后的研究方向 。
图 1 情感分类的主要过程
Web 文本情感分类研究综述
和其直接修饰成分等作为特征项 ,对主观句识别的 查准率和查全率达到了 80% ~ 90% [12] 。
Pang 和 Li 将句子间的情感联系作为分类的一 个重要因素 ,用最小图割(Minimum cuts)的方法来寻 找上下文语句的关系以提高分类精度 。 它的划分原
Yu 等利用三种统计方法进行主客观句的识别
|Dl_√ 研究 ,包括相似性方法 、NB 分类和多重 NB 分类 。
其中 NB 分 类 器 在 原 有 研 究 的 基 础 上 采 用 词 、2-
一般褒扬 、强烈褒扬五个类别 。
gram 、3-gram 和词类 、具有情感倾向的词序列 、主语
— 932 —
理是是使成本公式最小 : ∑ ind2 (x) + ∑ ind1 (x)
x ∈ C1
x ∈ C2
+ ∑ assoc(xi ,xk ) ,其中 x 句子 ,Ci 是类别 , xi ∈ C1 ,xk ∈ C2
indj ( xi ) 指单根据 xi 的特征将其划分为 j 类的偏好
得分 , assoc(xi ,xk ) 指 xi 和 xk 属 于 同 一 类 的
AND TECHNICAL INFORMATION ISSN 1000 - 0135
Vol .29 No .5 ,931 - 938
October 2010
Web 文本情感分类研究综述1)
王洪伟1 刘 勰1 尹 裴1 廖雅国2
(1畅 同济大学经济与管理学院 ,上海 200092 ;2畅 香港理工大学电子计算学系 ,香港)
的差异 ,使得中文的情感流露方式具有特殊性和复
Keywords Web texts ,sentiment classification ,survey ,subjective text
随着互联网的流行 ,Web 文本成为我们获取信 息 、发表观点和交流情感的重要来源 。 特别是随着 Web2畅0 技术的发展 ,网络社区 、博客和论坛给网络 用户提供了更宽广的平台来交流信息和表达意见 。 这些文章和言论往往包含有丰富的个人情感 ,比如
主客观文本分类研究已经展开 ,并应用在信息
感分类是一个复杂的过程 ,包括 :主客观文本分类 、 检索和信息抽取等领域[5] 。 主客观文本分类与其他
情感极性判别 、情感强度判别 。 前者是情感分类的 文本分类类似 ,可以从篇章 、句子和词语三个层面展
预处理工作 ,后两者才是真正意义上的情感分类 。 开 ,用到的方法主要是机器学习算法 。
首先在 N-POS 语言模型的基础上 ,利用 CHI 统计方
法提取中文主观文本词类组合模式 ,利用这些组合
模式给每个句子赋以主观性得分 ,将得分高于设定
阈值的句子判定为主观性文本 。 实验表明 ,当阈值
为 0畅12 时 ,主观文本的分类查准率和查全率能达到
76% [15] 。
需要指出 ,由于中英文语言结构及中西方文化
— 931 —
情报学报 第 29 卷 第 5 期 2010 年 10 月
千摹瑚摹章溥藁 ,隍瀑躺溯 浔篥碍凿 匿举料
千猫、晖覃章 态度 。 其中 ,态度可以是他们的判断或者评估 ,他们
在整个情感分类过程中 ,还涉及分类前的预处
(演说 、写作时)的情绪状态 ,或者有意(向受众)传递 理技术 ,包括分词 、词性标注 、平滑 、停用词和缩词的
对某部大片的影评 ,对某款手机的用户体验等 ,其中 蕴含着巨大的商业价值 。 如何从这些 Web 文本中 进行情感挖掘 ,获取情感倾向已经成为当今商务智 能 领 域 关 注 的 热 点 。 所 谓 情 感 分 析 (sentiment analysis) ,就是确定说话人或作者对某个特定主题的
收稿日期 :2009 年 6 月 29 日 作者简介 :王洪伟 ,男 ,1973 年生 ,博士 ,副教授桙博导 ,研究方向 :本体建模和情感计算 ,E-mail :hwwang@ tongji .edu .cn 。 刘 勰 ,男 ,1985 年生 ,硕士研究生 ,研究方向 :数据挖掘与情感计算 。 尹裴 ,女 ,1986 年生 ,硕士研究生 ,研究方向 :商务智能 。 廖雅 国 ,男 ,1954 年生 ,博士 ,教授 ,研究方向 :人工智能与电子商务 。 1) 本文得到国家自然科学基金项目(70501024 ,70971099) ;教育部人文社会科学资助项目 (05JC870013) ;上海市重点学科 建设项目 (B310) ;香港研究资助局项目(polyU5237桙08E)资助 。
并由大到小排序 ,取最靠前的 275 个词语 ,并将它们
两两组合 ,再计算每对组合在影视评论中的互信息
量 ,最后得到 “我 想”“我 应该”等具有主观倾向的
75 个词语组合 ,并将其用于句子主客观性的判断 ,
总体的准确率达到了 78畅42% [14] 。
叶强和张紫琼等提出一种根据连续双词词类组
合模式(2-POS)自动判别句子主客观性程度的方法 。
依据是文本的主题 ,如属于军事类还是体育类 ,而情 感分类主要用来判别自然语言文字中表达的观点 、 喜好以及与感受和态度等相关的信息[3] 。 由于 Web
常采用比较正式的陈述句 ,而主观性文本因为强调
\J\O\。J\一5 自我表达 ,表述上比较自由 ,偏口语化 ,比如“这款手
机酷毙啦 !” 。
文本是以非结构化形式存在的 ,因此对文本进行情
情 报 学 报 ISSN 1000 - 0135
第 29 卷 第 5 期 931 - 938 ,2010 年 10 月
doi :10 .3772桙j .issn .1000-0135 .2010 .05 .023
JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC
Abstract Analyzing the users’ reviews on the Web can help us to identify users’ implicit sentiments and find the evolution
相关主题