当前位置:
文档之家› Web文本情感分析研究综述_李光敏
Web文本情感分析研究综述_李光敏
收稿日期 :2 0 1 3 -1 2 -1 2 ) ;湖北师范学院文理学院2 基金项目 : 湖北省教 育 厅 青 年 科 学 技 术 研 究 项 目 ( 项 目 编 号 :Q 项 目 编 号: 2 0 1 3 2 5 0 3 0 1 2教学研究项目 ( ) 。 X J 2 0 1 2 1 9 , 男 , 讲师 , 硕士 , 研究方向 : 文本挖掘 、 情感分析 作者简介 : 李光敏 ( 1 Байду номын сангаас 7 9 -)
( ) 湖北师范学院计算机科学技术学院 , 湖北 黄石 4 3 5 0 0 0
〔 摘 要 〕 随着 W e b 2 . 0 的迅速发展 , 互联网成为人们表达观点 、 抒发情感的重要工具 , 如何有效地从 W e b文本中提取 、 归纳 出用户的情感观点是研究者所面临的重要问题 。 本文首先提出对日益增多的 W e b 文本进行情感分析的必要性 。 然后从文本主客观 性分类 、 情感极性分类和主题及观点持有者抽取等方面介绍文本情感分 析 在 国 内 外 的 研 究 进 展 ; 最 后 总 结 出 今 后 需 深 入 研 究 的 问 题。 〔 关键词 〕 情感分析 ; 主客观分类 ; 情感极性 ; 情感信息抽取
A n O v e r v i e w o f R e s e a r c h o n W e b T e x t S e n t i m e n t A n a l s i s y
L i G u a n m i n u X i n s h a n i o n X u h u i X X g g ( , ,H ,C ) C o l l e e o f C o m u t e r S c i e n c e a n d T e c h n o l o u b e i N o r m a l U n i v e r s i t u a n s h i 4 3 5 0 0 0 h i n a g p g y H y g
[4 ] 国内方面 ,L 提出了基于层叠式 C i u1 R F s模 型 的 句 子
实验分析了上下文信息对主客观分类的影响 。 从国内外研究现状来看 , 通过分类器和特征项选取是完 成文本主客观分类的主要方法 , 那么今后采用更深层 、 更具 针对性的特征项更能提高分类效果 。
褒贬度分析方法能在有效识别句子褒贬度的同时 , 提高了句
2 0 1 4年5月 第3 4 卷第 5 期
现 代 情 报
J o u r n a l o f M o d e r n I n f o r m a t i o n
, M a 2 0 1 4 y V o l . 3 4 o . 5 N
· 综 述 ·
W e b文本情感分析研究综述
李光敏 许新山 熊旭辉
构化的文本进行提 取 和 分 类 的 情 感 分 析 技 术 ( S e n t i m e n t A- ) 便应运而生 。 n a l s i s y
1 文本情感分类
广义上讲 , 文本信息主要用来描述客观性事实和表达主
] 1 , 当前的文本信息处理大多通过关键词抽取文本 观性观点 [
描述中特定事 件 发 生 的 时 间 、 地 点 、 人 物 、 属 性 等 客 观 信 息 。 文本情感分类则先对文本进行主客观分类 , 然后对主观 性文本中的情感信息划分极性 。 极性划分是指对主观性文本 )的肯 进行情 感 极 性 的 识 别 , 并 分 别 标 注 为 正 面 ( P o s i t i v e ) 的否定和中性 ( ) ,即完成情感 定 、 负面 ( N e a t i v e N e u t r a l g 信息分类的第二大任务 。
[ ] 1 2 、最 大 熵 ( P a n S VM) ME) 和 朴 g 使用支持 向 量 机 (
) 分类器 , 采 用 作为特征 , 设计了朴素贝叶斯 ( N a v e B a e s y 1 0 折交叉验证 的 测 试 方 法 , 并 通 过 实 验 证 明 平 均 分 类 准 确 率达到 8 1 . 5 %。W i e b e 又在此 基 础 上 加 入 词 性 和 基 于 词 典
] 1 5 子褒贬强度判 别 的 准 确 度 。 徐 军 [ 等人利用朴素贝叶斯和
1 . 2 主观性文本中的情感极性分类研究
主观性文本 中 的 情 感 极 性 分 类 目 前 主 要 有 两 种 研 究 思 路 : 基于情感知识的情感词典建立 选取 。 1 . 2 . 1 基于情感知识
[ ] 8 、 T o n r e a t a c t i n g 通过人工抽 取 与 影 评 相 关 的 词 汇 ( g g [ ] 7
[ ] 3
的语义词两类特征 项 , 使 得 分 类 效 果 提 升 明 显 。O r t e a 通 g
[ ] 4
过无监督粗 粒 度 的 词 义 消 岐 方 式 来 区 分 每 个 词 的 客 观 、 主 观 、 强主观性用法 , 从而完成句子级的主客观分类 。 由于中文表达的复杂性和特殊性 , 国内在该方面的研究 成果不多 。Y 情 感 形 容 词、第 一 a o 较早 通 过 预 选 特 征 项 (
— 1 7 3 —
2 0 1 4年5月 第3 4 卷第 5 期
W e b文本情感分析研究综述
, M a 2 0 1 4 y V o l . 3 4 o . 5 N
1 . 1 主客观分类国内外研究现状
[] W i e b e2 等人较早将形 容 词 、 副 词 等 和 标 点 及 句 子 位 置
[ ] 5
)3 种分类器对篇章级的电影评论文本进行分 素贝叶斯 ( N B 类对比 , 发现机器学习方法比基于人工标注特征的方法更有
[ ] 1 3 效 , 并且 S VM 在 3 种 分 类 器 中 平 均 表 现 最 好 。T h e l w a l l
, 或第二人称代词 、 标点符号 、 感叹词 、 动词 、 数字和日期 ) 使用 W e k a中多种分类算法进行性能测 试 , 最 后 采 用 6 种 稳 定特征项和用于支持向量分 类 的 连 续 最 小 优 化 算 法 ( S MO) 能达到最高 F 度 量 为 9 3 . 8 % 的 分 类 效 果。W a n g 通过对比
[ ] 6
结合研究用户书写习惯 ( 含感叹号 、 重复标点符号 、 单词中 字母重复等 ) 实现 S e n t i S t r e n t h 算法对 M S a c e评论进行极 g y p 性分类 , 实 验 结 果 表 明 正 向 预 测 准 确 率 达 到 6 0 . 6 %, 负 向 准确率达到 7 2 . 8 %。
: / D O I 1 0 . 3 9 6 9 . i s s n . 1 0 0 8 -0 8 2 1 . 2 0 1 4 . 0 5 . 0 3 7 j 〔 )0 中图分类号 〕T 文献标识码 〕A 〔 文章编号 〕1 P 1 8 0 0 8 -0 8 2 1( 2 0 1 4 5 -0 1 7 3 -0 4 〔
” 中的 “ 草泥马 ” 泥马你何时给老百姓分过房了 ? C N N” 和 “ 暗示负面情 感 。 这 类 网 络 新 词 也 增 加 了 情 感 词 典 建 立 的 难 度。 1 . 2 . 2 基于机器学习算法 基于机器学习算法方式主要使用训练集对统计模型进行 训练 , 最后用训 练 好 的 分 类 器 预 测 新 输 入 文 本 中 的 情 感 极 性。
〔 〕W , A b s t r a c t i t h t h e r a i d d e v e l o m e n t o f W e b 2 . 0 t e c h n o l o I n t e r n e t h a s b e c o m e a n i m o r t a n t t o o l f o r e o l e t o e x - p p g y p p p r e s s t h e i r o i n i o n a n d e m o t i o n . I t i s a c h a l l e n e f o r r e s e a r c h e r s h o w t o e x t r a c t a n d s u mm a r i z e u s e r o i n i o n s e x r e s s e d i n p p g p p , w e b t e x t .F i r s t l t h i s a e r r e s e n t e d t h e n e c e s s i t o f s e n t i m e n t a n a l s i s o n t h e r o w i n W e b t e x t .T h e n i t i n t r o d u c e d y p p p y y g g r e s e a r c h r o r e s s b o t h a t h o m e a n d a b r o a d o f t e x t s e n t i m e n t a n a l s i s f r o m t h e r o s e c t o f e m o t i o n a l i n f o r m a t i o n c l a s s i f i t h e - p g y p p , ,e r o b l e m s c a t i o n a n d i n f o r m a t i o n e x t r a c t i o n .F i n a l l i t s u mm a r i z e d t h e s e n t i m e n t a n a l s i s a l i c a t i o n s t a t u s x i s t i n a n d p y y p p g d e f i c i e n c i e s o f i t . 〔 〕s ; ; ; K e w o r d s e n t i m e n t a n a l s i s s u b e c t i v e c l a s s i f i c a t i o n s e n t i m e n t i n f o r m a t i o n e x t r a c t i o n o l a r i t y j p y y e b文本成为交流情感 、 发表 随着互联网的飞速发展 , W 观点的主要载体和热点话题的信息源 。 用户通过社会化媒体 ( 论坛 、 博客 、 微博 ) 分 享 对 所 购 商 品 的 使 用 感 受 、 新 上 映 电影的评论 、 当前热点新闻的个人看法等 , 这些言论往往包 含有喜 、 怒 、 哀 、 乐 、 肯定 、 否定 、 中立等个人丰富的情感 和观点 。 正是这些包含 丰 富 情 感 的 W e b评 论 文 本 的 涌 现, 一 方 面帮 助 生 产 厂 商 通 过 网 络 口 碑 ( E l e c t r o n i c W o r d-o f- ) 了解产品优势 和 不 足 , 以 改 进 产 品 设 计 和 服 务 , 调 m o u t h 整广告投放策略 , 获得市场竞争优势 ; 另一方面帮助消费者 了解产品性能 , 缩短购买决策时间 。 如果仅靠手工对这些日 益增长的海量信息进行归纳 、 分类 , 显然是不现实的 。 因此 结合信息检索 、 自然语言处理 、 机器学习等领域知识对非结