当前位置:文档之家› 产品评论挖掘研究综述

产品评论挖掘研究综述

2008, 44(36 1引言 随着 Web 的广泛使用,用户购买和使用产品之后会在 Web 上发表对产品的评论, 这些评论中包含用户对产品的性能 或功能等方面持有肯定还是否定的态度 。 生产厂商和用户对产 品评论的分析可以获得大量的有用信息:生产厂商不仅可以了 解用户对产品目前已提供的性能的评价和产品的不足, 还可以 了解用户的需求,找出用户最感兴趣和最希望提供的功能, 从 而改进产品 [1]。 用户购买产品之前可以了解已经购买了该产品 的用户关于该产品的使用体验,了解产品各个方面的性能, 还 可以对同类型的产品按照性能进行对比, 从而合理地购买产品 [2]。

目前用户一般通过在 Web 上填写问卷调查表的方式或直 接使用自然语言发表一段评论的方式来表达对产品的态度 。 问 卷调查表属于结构化数据, 可以使用成熟的数据库技术进行分 析并显示统计结果, 自然语言描述的产品评论属于无结构化数 据, 生产厂商和用户要想从产品评论中获取信息, 只有通过人 工阅读方式来获取信息, 而这是一个消耗时间且容易产生错误 的过程 。 因此产生了对用户评论挖掘的研究, 目的是通过采用

自然语言处理技术, 对自然语言描述的无结构的用户产品评论 中进行数据的自动挖掘, 找到有用的信息, 并以直观的方式对 挖掘结果进行表示 。

2产品评论挖掘框架 产品评论挖掘是文本挖掘研究领域中最近几年兴起的研究 热点, 以 Web 上发表的用户产品评论作为挖掘对象, 采用自然语 言处理技术,从大量文本数据中发现用于对该产品各方面性能 的评价 。 目前产品评论挖掘分为产品特征提取 、 主观句定位 、 用户 态度提取 、 态度极性判定和挖掘结果显示 5个子任务 (如图 1 。 (1 产品评论语料库 。 产品评论挖掘是针对某类产品 (比如 手机 、 数码相机 进行挖掘, 因此必须首先建立产品评论的语料 库 。 目前研究主要采用从指定的网站 (比如英文的 www.Ama -zon.com 、 中文的 pinglun.IT168.com 获取某类产品的产品评论 来构建产品评论语料库 。

(2 产品特征提取 。 从产品评论中发现用户对产品的哪些 产品特征 (产品的部件 、 部件的性能或功能 进行了评价 。

基金项目:重庆市自然科学基金 (the Natural Science Foundation of Chongqing City of China under Grant No.2007BB2134 。

作者简介:伍星 (1978- , 男, 博士研究生, 讲师, 主要研究方向为自然语言理解 、 Web 挖掘; 何中市 (1968- , 博士, 教授, 博导, 主要研究方向为机器

-收稿日期:2008-09-15 修回日期:2008-10-16 产品评论挖掘研究综述 伍 星, 何中市, 黄永文 WU Xing , HE Zhong-shi , HUANG Yong-wen 重庆大学 计算机学院, 重庆 400044 Computer College of Chongqing University , Chongqing 400044, China E-mail :wuxing@cqu.edu.cn

WU Xing , HE Zhong-shi , HUANG Yong-wen.Product review mining :A survey.Computer Engineering and Applications , 2008, 44(36 :37-41. Abstract :Product review mining is the process of finding information from product reviews on the Web through natural language process technology.It is a rising field that is the sub field of unstructured data mining from plain text.The information mined from product reviews can help manufacturers to improve their product , and help user to buy product with more rationality.A survey of product review mining is discussed.Firstly , the framework of product review mining is analyzed.Then , the tasks of product review

mining that include subjective sentence identify , product feature extracting , user attitude extracting , polarity classifying and mining result show are also described in detail , and finally the future reseach directions about product review mining are pointed out. Key words :textual pattern ; subjective feature ; word polarity

摘 要: 产品评论挖掘是以 Web 上用户发表的产品评论为挖掘对象, 采用自然语言处理技术, 从大量的文本数据中发现关于产品 的功能和性能的评价信息的过程 。 产品评论挖掘是一个新兴的研究领域, 是对自然语言描述的无结构数据进行数据挖掘的典型代 表 。 产品评论中挖掘得到的信息不仅可以帮助生产厂商改进产品, 还可以帮助用户合理的购买产品 。 对产品评论挖掘进行了全面 深入地讨论, 介绍了产品评论挖掘系统的通用框架, 然后对产品特征提取 、 主观句定位 、 用户态度提取 、 态度极性判定 、 挖掘结果显 示这 5个子任务进行了详细地阐述, 最后介绍了产品评论挖掘的最新方向 。

关键词: 用户评论; 主观特征; 词语极性 DOI :10.3778/j.issn.1002-8331.2008.36.010 文章编号:1002-8331(2008 36-0037-05 文献标识码:A 中图分类号:TP18 Computer Engineering and Applications 计算机工程与应用 37 Computer Engineering and Applications 计算机工程与应用 2008, 44(36 产品评论 语料库 产品特征提取 主观句定位 产品特征集合 主观句集合 用户态度提取 态度极性判定 挖掘结果显示 图 1产品评论挖掘系统框架 1. 最大的缺点是电池容量小使用时间短 。 2. 外表华丽, 适合白天使用 夜景不用三角架不行, 防抖极差, 防红眼基本不起作用 。

3. SONY T9可以放在裤兜里 。 图 2产品特征 (3 主观句定位 。 发现产品评论中的哪些句子用户表达了 对产品的主观态度 。

(4 用户态度提取 。 从主观句中寻找表示用户态度的单词 、 短语或结构 。 (5 态度极性判定 。 确定用户态度的极性:正性 (肯定 、 支 持 /负性 (否定 、 反对 。

(6 挖掘结果显示 。 对挖掘结果进行直观地显示 。 文章的后续部分将对产品评论的 5个子任务进行详细地 介绍 。

2.1产品特征提取 生产厂商一般会提供一个关于产品各个方面性能的说明 文件, 但是产品评论挖掘一般不从这样的说明性文件中提取产 品特征, 主要原因是:首先生产厂商和用户对产品特征关注的 角度不一样, 生产厂商提供的产品特征更多的专注于一些技术 细节, 对于这样的细节用户一般不感兴趣; 其次产品评论中对 特征的描述是一个开放性的问题, 用户可能在产品评论中发表 生产厂商根本没有考虑到的一些产品特征, 因此需要从产品评 论语料库中提取产品特征 。

产品特征分为显示特征和隐示特征, 显示特征是直接出现 在产品评论中描述产品的性能或功能的名词或名词短语 。 隐示 特征没有在语句中直接进行描述, 需要句子进行语义理解才能

得到 。 图 2中的第 1、 2句中的电池容量 、 外表 、 三脚架和防红眼 是显示特征, 而第 3句中语句的字面语义是相机容易放在口袋

里, 其实指出了 SONY T9的大小这个隐示特征 。 提取隐示特征 需要自然语言的完全理解技术, 而该技术不成熟, 因此目前的

产品评论挖掘中产品特征提取均都只考虑显示产品特征 。 显示产品特征的提取分为人工定义和自动提取两类方法 。 人工定义就是针对特定领域的产品建立该领域的产品特征词

汇表 。 Li Zhuang 人工定义针对电影的产品特征, 将电影的产品 特征分为两类:电影的元素 (比如:screenplay 、 vision effect 和

与电影相关的人员 (比如:director 、 screenwriter 、 actor [3]。 姚天 昉 利用本体建立了汽车的产品特征 [4]; Kobayashi 、 Inui 和 Mat -sumoto 以半自动的方式建立了针对汽车和游戏的产品特征, 首 (论文档中抽取候选的特征, 再以人工的方式进行标注 [5]。

采用人工定义产品特征的方法, 每一个领域的产品都需要 该领域的专家参与才能定义该领域的产品特征, 因此移植性较

相关主题