当前位置：文档之家› 大数据在电子商务中的应用

大数据在电子商务中的应用

另外，规则较多时还会引起规则之间的冲突，各语言间移植困难、通用性不强。
3.2基于机器学习的方法
机器学习领域
监督学习
半监督学习 semi-supervised learning
无监督学习
今年来模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法
主要考虑如何利用少量的标注样本和大量的未标注样本
在线评论
网民焦点话题
经济发展趋势
用户体验消费经验
社会舆论导向
在线评论
评论对像特征
在线评论的挖掘研究
机器学习
信息抽取
在线评论的挖掘研究
自然语言处理
数据挖掘
2.现状
ISI Web of Science
相关文献33733篇
Journal of Interactive Marketing、 Decision Support Systems
微博
关键词
2.1 在线评论信息挖掘中文关键词分布
180 160 140 120 100
80 60 40 20
0 1998
2003
2008
2013
年份
2.2 在线评论信息挖掘时间分布
2018
Hu等利用从亚马逊及Barnes&Noble（全球第二大网上书店，仅次于第一名亚马逊）得来的图书评论信息来证明目前存在部分出版商、作者及卖家有意操纵评论信息的情况，其研究结果表明大多消费者会根据商品价格来判断商品质量，商家在不进行有意的评论操纵或者销售质量较高的产品更容易改变消费中的购买倾向性，由此建议可以通过增加操纵成本来缓和消费者被操纵产生的不良后果。
Wang等选择采用半监督-交叉训练方法，以迭代的方式挖掘评论对象和评价词，通过朴素贝叶斯分类器在只有很少标注的语料的前提下取得结果。
郭国庆等引入了霍夫兰德在耶鲁大学提出的基于信息传播过程的说服或态度改变模型，在模型本身提出的信息源、信息内容、接收者三个方面的基础上，加入社会因素，提出了在线评论可信度影响因素模型，并以第三方评论网站为例，进行了实证研究。
热点问题
评论中产品特征挖掘
情感分析
情感分析
评论中产品特征挖掘
评论挖掘作为非结构化信息挖掘的一
个信息领域
评论中主观内容识别等
英文评论领域，研究者已经初步取得一些成果，而针对中文网络评论的研究仍然处于起步阶段。目前，关于此问题的研究，国外研究者主要是从对网络评论信息特征的主观观点、评论的情感性分析及评论信息的可信度方面研究。
3.在线评论信息挖掘方法
在线评论信息挖掘技术方法
观点句识别在线评论要素抽取
当前具有代表性的研究方法
基于知识规则方法基于机器学习的方法
3.1基于知识规则方法
该方法用于在线评论情感倾向性分析是，通常基于一个预先定义的情感词典，如WordNet、HowNet等词表，统计整个句子中的情感词的倾向性，进而得到句子的情感倾向。
3.1基于知识规则方法
基于知识的规则方法中通常还基于自然语言语义理解，使用句法分析方法从评论的文本结构分析定义一系列规则或模板，对文本的情感倾向性进行分析。例如，Nasukawa等借助一个句法剖析其进行语义分析并且取得了较高的准确率。
Wilson开创了在短语层面进行主观性分析的研究工作，在他们将文档按特征分为词汇特征、修饰特征、句子特征、结构特征和文档特征五个类别，基于这五个特征集合构造了一个分类器，在细粒度主观性分析任务中完成得很好。
大数据在电子商务中的应用— —在线评论信息挖掘
1.引言
随着互联网的发展和普及，Web已经成为用户在线反馈观点的主要途径。网络购物、论坛发表意见无形中已经成为了大多数网友上网的乐趣，而网络机构也开始意识到通过提供在线评论能够增加与用户的互动，获得自身的改进。然而面对网上海量的良莠不齐的信息和数据，企业、政府和用户要想从在线评论中获得有用的信息，只有通过人工阅读的方式来获取，这不仅需要耗费大量的时间，而且极易产生错误。
上海交通大学的娄德成等通过手工对HowNet包含的所有词条进行倾向性标注，并从网络上选取一定量的极性次于作为种子集合，得到了数量可观的褒贬次于字典，字典中不包含的新词，通过计算新词与种子集合中次于的互信息而得到新词的语义倾向。
对于意见持有者的识别，Stoyanov采用命名实体识别的方法，将意见持有者看作一个实体，通过选择相同实体的意见持有者以解决互指问题；Kim等首先通过分析句子的句法结构识别动词或形容词等带有情感倾向的词语，在借助FrameNet标注其情感角色以识别出主题、意见持有者等信息。
在中国知网（CNKI）上检索（主题=中英文扩展（网络评论）或主题=中英文扩展（在线评论）），检索结果为934条。
文献数量
文献数量
700 600 500 400 300 200 100
0Leabharlann 网络评论在线评论网网络络新闻评论新闻评论网络舆情文本分析网络口碑情感分类意见挖掘网络媒体网络舆论
进行训练和分类的问题
对减少标注代价，提高机器学习性能具有
非常重大的实际意义
3.2基于机器学习的方法
通常使用支持向量机（support vector machines，SVM）、隐马尔可夫模型（hidden markov model，HMM）最大熵（ME）等回归方法、序列标注方法进行在线评论信息挖掘。
Akshay和Durant使用SVM进行情感分类。 Pang等在2002年使用包括朴素贝叶斯、最大熵和SVM等多种机器学
习方法，使用文本分类中常用的unigram（单个word）、bigram （双word）和词性等作为基本特征对电影评论进行了分类。 Sakvetti等采用隐马尔可夫模型结合词性特征，对电影评论和产品评论进行分类。 McDonald等把句子的褒贬标记看作一个情感刘问题，并利用条件随机场（conditional random fields，CRFs）模型来给篇章中的每个句子打分，把句子级的褒贬标记和章篇级的褒贬标记放到一个图模型下求全局最优，该方法不仅考虑了句子的上下文关系，并且考虑了篇章的整体情感倾向性。
刘鸿宇等通过分析情感剧举行，归纳相应的规则进行倾向性的判断。基于语义理解和句法分析方法的准确率和召回率较高，但定义推理规则需要花费成本较高。
3.1基于知识规则方法
基于知识的规则方法在小规模测试时效果较好，速度快。
但是，人为编写规则需要语言专家对语言规则进行升入的理解，在此基础上编写规则，构造规则对语言知识要求较高，需要很大的人力、财力。

e商务文档

大数据在电子商务中的应用

相关文档推荐：