大数据在电子商务中的应用
另外,规则较多时还会引起规则之间的冲 突,各语言间移植困难、通用性不强。
3.2基于机器学习的方法
机器学习领域
监督学习
半监督学习 semi-supervised learning
无监督学习
今年来模式识别和机器学习 领域研究的重点问题, 是监督学习与无监督学习 相结合的一种学习方法
主要考虑如何利用少量的 标注样本和大量的未标注样本
在线评论
网民焦点话题
经济发展趋势
用户体验 消费经验
社会舆论导向
在线评论
评论对像特征
在线评论的挖掘研究
机器学习
信息抽取
在线评论的 挖掘研究
自然语言处理
数据挖掘
2.现状
ISI Web of Science
相关文献33733篇
Journal of Interactive Marketing、 Decision Support Systems
微博
关键词
2.1 在线评论信息挖掘中文关键词分布
180 160 140 120 100
80 60 40 20
0 1998
2003
2008
2013
年份
2.2 在线评论信息挖掘时间分布
2018
Hu等利用从亚马逊及Barnes&Noble(全球第二大网上书店,仅次于第一名亚马逊) 得来的图书评论信息来证明目前存在部分出版商、作者及卖家有意操纵评论信息的 情况,其研究结果表明大多消费者会根据商品价格来判断商品质量,商家在不进行 有意的评论操纵或者销售质量较高的产品更容易改变消费中的购买倾向性,由此建 议可以通过增加操纵成本来缓和消费者被操纵产生的不良后果。
Wang等选择采用半监督-交叉训练方法,以迭代的方式挖掘评论对象和评价词,通 过朴素贝叶斯分类器在只有很少标注的语料的前提下取得结果。
郭国庆等引入了霍夫兰德在耶鲁大学提出的基于信息传播过程的说服或态度改变模 型,在模型本身提出的信息源、信息内容、接收者三个方面的基础上,加入社会因 素,提出了在线评论可信度影响因素模型,并以第三方评论网站为例,进行了实证 研究。
热点问题
评论中产品特征 挖掘
情感分析
情感分析
评论中产品 特征挖掘
评论挖掘作为非结 构化信息挖掘的一
个信息领域
评论中主观内容 识别等
英文评论领域,研究者已经初步取得一些成果,而针对中文网络评论的研究仍然处于起步 阶段。目前,关于此问题的研究,国外研究者主要是从对网络评论信息特征的主观观点、 评论的情感性分析及评论信息的可信度方面研究。
3.在线评论信息挖掘方法
在线评论信息挖掘技术方法
观点句识别 在线评论要素抽取
当前具有代表性的研究方法
基于知识规则方法 基于机器学习的方法
3.1基于知识规则方法
该方法用于在线评论情感倾向性分析是,通常基于一个预先定义的 情感词典,如WordNet、HowNet等词表,统计整个句子中的情感词 的倾向性,进而得到句子的情感倾向。
3.1基于知识规则方法
基于知识的规则方法中通常还基于自然语言语义理解,使用句法分 析方法从评论的文本结构分析定义一系列规则或模板,对文本的情 感倾向性进行分析。例如,Nasukawa等借助一个句法剖析其进行语 义分析并且取得了较高的准确率。
Wilson开创了在短语层面进行主观性分析的研究工作,在他们将文 档按特征分为词汇特征、修饰特征、句子特征、结构特征和文档特 征五个类别,基于这五个特征集合构造了一个分类器,在细粒度主 观性分析任务中完成得很好。
大数据在电子商务中的应用— —在线评论信息挖掘
1.引言
随着互联网的发展和普及,Web已经成为用户在线反馈观点的主要 途径。 网络购物、论坛发表意见无形中已经成为了大多数网友上网的乐趣, 而网络机构也开始意识到通过提供在线评论能够增加与用户的互动, 获得自身的改进。 然而面对网上海量的良莠不齐的信息和数据,企业、政府和用户要 想从在线评论中获得有用的信息,只有通过人工阅读的方式来获取, 这不仅需要耗费大量的时间,而且极易产生错误 。
上海交通大学的娄德成等通过手工对HowNet包含的所有词条进行倾 向性标注,并从网络上选取一定量的极性次于作为种子集合,得到 了数量可观的褒贬次于字典,字典中不包含的新词,通过计算新词 与种子集合中次于的互信息而得到新词的语义倾向。
对于意见持有者的识别,Stoyanov采用命名实体识别的方法,将意 见持有者看作一个实体,通过选择相同实体的意见持有者以解决互 指问题;Kim等首先通过分析句子的句法结构识别动词或形容词等 带有情感倾向的词语,在借助FrameNet标注其情感角色以识别出主 题、意见持有者等信息。
在中国知网(CNKI)上检索(主题=中英文扩展(网络评论)或主题=中英文 扩展(在线评论)),检索结果为934条。
文献数量
文献数量
700 600 500 400 300 200 100
0Leabharlann 网络评论 在线评论网网络络新闻评论 新闻评论 网络舆情 文本分析 网络口碑 情感分类 意见挖掘 网络媒体 网络舆论
进行训练和分类的问题
对减少标注代价,提高 机器学习性能具有
非常重大的实际意义
3.2基于机器学习的方法
通常使用支持向量机(support vector machines,SVM)、隐马尔 可夫模型(hidden markov model,HMM)最大熵(ME)等回归方法、 序列标注方法进行在线评论信息挖掘。
Akshay和Durant使用SVM进行情感分类。 Pang等在2002年使用包括朴素贝叶斯、最大熵和SVM等多种机器学
习方法,使用文本分类中常用的unigram(单个word)、bigram (双word)和词性等作为基本特征对电影评论进行了分类。 Sakvetti等采用隐马尔可夫模型结合词性特征,对电影评论和产品 评论进行分类。 McDonald等把句子的褒贬标记看作一个情感刘问题,并利用条件随 机场(conditional random fields,CRFs)模型来给篇章中的每 个句子打分,把句子级的褒贬标记和章篇级的褒贬标记放到一个图 模型下求全局最优,该方法不仅考虑了句子的上下文关系,并且考 虑了篇章的整体情感倾向性。
刘鸿宇等通过分析情感剧举行,归纳相应的规则进行倾向性的判断。 基于语义理解和句法分析方法的准确率和召回率较高,但定义推理 规则需要花费成本较高。
3.1基于知识规则方法
基于知识的规则方法在小规模测试时效果 较好,速度快。
但是,人为编写规则需要语言专家对语言 规则进行升入的理解,在此基础上编写规 则,构造规则对语言知识要求较高,需要 很大的人力、财力。