当前位置：文档之家› 基于情感分析的商品推荐系统的设计与实现

基于情感分析的商品推荐系统的设计与实现

第２５卷第３期　２０１４年６月　中原工学院学报　

Ｊ０ＵＲＮＡＬ　ｏＦ　ＺＨ０ＮＧＹＵＡＮ　ＵＮＩＶＥＲＳＩＴＹ　０Ｆ　ＴＥＣＨＮ０Ｌ０ＧＹ　Ｖ０１．２５　Ｎｏ．３　

Ｊｕｎ．。２ｏ１４　

文章编号：１６７１—６９０６（２０１４）０３—００７１—０４　基于情感分析的商品推荐系统的设计与实现　

郭　丽　，刘　磊　（１．中原工学院，郑州４５０００７；２．郑州航空工业管理学院，郑州４５０００５）　

摘要：　提出了一种基于情感分析的商品推荐系统，该系统能够分析购买者对商品的评价，从而获取用户对商品某些　属性的态度。只要用户提供所需商品的品牌型号信息以及感兴趣的属性，系统就可以推荐出最受关注和好评的所需商　品。　关　键　词：　情感分析；向量空间模型；商品；属性　中图分类号：ＴＰ３９１．１　文献标志码：　Ａ　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７１—６９０６．２０１４．０３．０１７　

随着计算机的普及和互联网的迅猛发展，人们已　经习惯于通过网络获取信息。然而，海量的信息一方　面使用户很难从中发现自己感兴趣的内容，另一方面　也使得一些少人问津的信息成为网络中的“暗信息”，　无法被一般用户获取，使得信息的利用率反而降低（信　息超载）［　。近年来，随着电子商务应用的逐步深入，　以淘宝为首的电子商务企业让中国亿万消费者领略了　网络购物所带来的前所未有的方便，顾客可以不受时　间、地域的限制，随时随地买到他们想要的任何商品。　但是，不断增多的商品类目和数量让用户找到自己真　正需要的商品变得越来越困难，如：Ａｍａｚｏｎ上有数百　万图书，淘宝上有过亿的商品。对于电子商务网站来　说，如果不能准确地为客户展示他们喜欢的商品，而让　顾客将时间浪费在浏览自己不感兴趣的商品上，那么　最终为顾客糟糕的浏览体验埋单的还是网站自己。而　通过个性化推荐技术，能够改善顾客在网络上的浏览　体验，不仅让他们能够买到称心如意的商品，而且买得　轻松满意，因此个性化推荐被认为是解决信息超载最　有效的工具之一＿２　Ｊ。　随着Ｗｅｂ２．０技术的成熟，个性化推荐系统已不　仅仅是一种商业营销手段，更重要的是其可以增进用　户黏着性，给电子商务领域带来巨大的商业利益。据　ＶｅｎｔｕｒｅＢｅａｔ统计，Ａｍａｚｏｎ的推荐系统为其提供了　收稿日期：２０１３—０９—１５　基金项目：河南省科技厅基础与技术前沿项目（１２２３００４１００４８）　作者简介：郭丽（１９８４一），女，河南郑州人，硕士。　３５　的商品销售额。与此同时，我国也广泛开展了个　性化推荐系统的研究，阿里巴巴、豆瓣、当当、淘宝成为　国内业界的翘楚。但总的来说，关于国内个性化商品　推荐服务的研究仍处于探索阶段。目前电子商务推荐　系统存在的共同问题是：大量的推荐系统要求用户对　网站中的各个商品进行“购买评价”，或者对推荐系统　给出的结果进行评价；用户在使用网站时，如果兴趣有　变化，推荐系统不能自适应地进行相应的调整。　本研究建立了用户评价模型，在用户进行商品检　索时，启动推荐系统，分析使用者当前提交的检索关键　词，依据推荐引擎的分析，提供给用户最合适的商品列　表。本系统不需要使用者提供商品的购买评价，便能　够分析使用者当前的购买需求，从而提供最合适的商　品信息。本系统旨在帮助消费者检索到有用的产品评　价信息，利用语义情感倾向根据用户实际需求推荐最　适合的产品，在节省用户时间和精力的同时提高了用　户购买产品的满意度。　

１　推荐算法　一个完整的推荐系统由３部分组成：收集用户信　息的行为记录模块、分析用户喜好的模型分析模块和　推荐算法模块。行为记录模块负责记录用户的喜好行　中原工学院学报　２０１４年第２５卷　为，如：问答、评分、购买、下载、浏览等。问答和打分的　信息相对好收集，然而有的用户不愿意向系统提供这　类信息，因此就需要通过其他方式对用户的信息进行　分析，如购买、下载、浏览等行为。通过用户的行为记　录分析用户潜在的喜好商品和喜好程度。模型分析模　块能够对用户的行为记录进行分析，并建立模型来描　述用户的喜好。推荐算法模块是利用推荐算法从产品　集合中筛选出用户感兴趣的产品进行推荐。其中，推　荐算法模块是推荐系统中最核心的部分。根据算法可　以将推荐系统分为３类；　（１）协同过滤（ｃｏｌｌａｂｏｒａｔｉｖｅ　ｆｉｌｔｅｒｉｎｇ）系统。这种　系统是利用当前用户或者其他用户对部分项目的已知　偏好数据来预测当前用户对其他项目的潜在偏好，或　者利用部分用户对当前项目或者其他项目的已知偏好　数据来预测其他用户对当前项目的潜在偏好。　（２）基于内容（ｃｏｎｔｅｎｔ—ｂａｓｅｄ）的推荐系统，最初　的基于内容的推荐是协同过滤技术的延续和发展。依　据用户已经选择的产品内容计算用户之间的相似度，　进而进行相应的推荐。　（３）混合算法（ｈｙｂｒｉｄ　ｆｉｌｔｅｒｉｎｇ）推荐系统。这是将不　同推荐类型或推荐算法进行组合产生的新的推荐算法。　结合当前推荐系统的发展趋势，本文采用混合推　荐算法。　

２　系统设计与实现　本文研究的商品推荐系统，能够在用户输入需要　的产品系列和属性后，提供给用户在该属性下广得用　户好评的商品列表。　本系统流程归纳为４个阶段：数据采集、语料预处　理、情感分析及检索。首先利用数据采集模块从淘宝　和百度有啊中抓取手机标准类目下的商品及评价信息　５　０００条，并对这些数据进行处理，挑选出合适的商品　信息（评价数超过５００条的商品），共２　３８９件商品，将　这些商品信息进行分词等预处理，抽取出情感词以及　其他特征项，并给这些特征项加权，其中情感词在情感　分析之后给予其情感值作为该情感特征项的权值，最　后给用户提供最适合的商品列表，如图１所示。　（１）数据采集模块。本系统利用开源网络爬虫　ｎｕｔｃｈ从百度有啊、淘宝中抓取评价数据，针对网站的　个性化差异，使用正则表达式融合ｖｉｐｓ算法实现个性　化的抽取，可以直接从网页的相关结构块中抽取出需　要的商品属性信息以及商品评价信息。　图１推荐系统模块图　提取　（２）语料预处理模块。该模块首先对抓取到的数　据进行分词及词性标注，并利用淘宝类目属性值挖掘　出评价中的商品属性，组成属性信息模板ｋｅｙ：｛ｖａｌ—　ｕｅｓ）格式，其中ｋｅｙ代表商品评论中获取的商品属性　信息，例如“屏幕”、“操作系统”等，ｖａｌｕｅｓ代表商品评　价中抽取的属性值集合，属性值包括形容词、名词。　（３）情感分析模块。为了推荐给用户最需要、评价　最好的商品，需要对属性值进行情感分析，提取好评商　品。本文基于ＨｏｗＮｅｔ的情感词表判断评论中形容　词的情感倾向性。ＨｏｗＮｅｔ提供的情感词库中含有褒　义词３　８６６个，贬义词３　２６１个。本文从情感词库中挑　选出成对出现，并适用于手机评论的情感基准词共４０　对，如：｛高，低）、｛差，好）、｛正品、假货）、｛漂亮、丑）、　｛好，坏）、｛完美、瑕疵）等，通过计算预处理阶段提取出　来的形容词特征项与基准词集合间的语义距离，确定　形容词特征项的情感倾向性，并作为该形容词特征项　的权值。处理流程如图２所示。　评价语句中的形容词与情感基准词之间的语义相　似度计算公式为　

Ｐｌａｒｉｔｙ（ｗｏｒｄ）一∑Ｓｉｍ（ｗｏｒｄ，Ｃｗｏｒｄ　）　ｉ＝１　

一∑Ｓｉｍ（ｗｏｒｄ，Ｄｗｏｒｄ　）　ｆ一１　其中，ｗｏｒｄ为当前需要计算情感倾向性的形容词；　

Ｓｉｍ（ｗｏｒｄ，Ｃｗｏｒｄ　）为形容词ｗｏｒｄ与褒义基准词ｉ之　间的相似度；Ｓｉｍ（ｗｏｒｄ，Ｄｗｏｒｄ　）为形容词ｗｏｒｄ与贬　义基准词ｉ之间的相似度；Ｐｌａｒｉｔｙ（ｗｏｒｄ）为形容词　ｗｏｒｄ的情感倾向权值。　（４）检索模块。本系统采用基于向量空间模型的　方法进行信息检索，即将每个商品信息表示为特征空　间的一个向量，ｄ　＝｛（ｔ　叫　１），（ｔ　２），…，（ｔ　，　叫　）），其中：ｄ　为第ｉ个商品；ｔ　为商品中的特征项，　本文采用的是商品属性；　为特征项　的权重，表示ｔ　第３期　郭丽，等：基于情感分析的商品推荐系统的设计与实现　・　７３・　

图２情感分析流程图　在文本中的重要程度。其中权重是根据特征项在商品　评论中出现的频率、情感倾向性计算得到的，本文采用　了ＴＦＩＤＦ计算特征项权重，而情感倾向性作为权重的　正负极。　Ｗ（ｔ，　）一Ｐｌａｒｉｔｙ（ｔ）　：　：　曼　兰！±　：　！　√∑　［　（　，　）×ｌｏｇ（Ｎ／ｎ　＋０．ｏ１）］。　其中，ｔｆ（ｔ，　）为特征项ｔ在商品ｄ评论中的出现频　率；Ｎ为训练文本的总数；　为训练文本集中出现ｔ的　文本数；分母为归一化因子；Ｐｌａｒｉｔｙ（ｔ）代表特征项ｔ在　商品　中情感倾向性，如果Ｐｌａｒｉｔｙ（ｔ）大于０，则会将该　商品加入推荐列表；ｗ（　，　）为特征项ｔ在商品　中的权　重，Ｗ（ｔ，　）值越大，特征项ｔ反映ｄ的能力越好。　

３　结　语　本文从淘宝和百度有啊中采集了手机类目下的商　品及商品评论数据集，在该数据集的基础上阐述了基　于情感分析的商品推荐系统的设计与实现过程，下一　步将对淘宝中商品评论的标签数据进行分析及利用，　以改善推荐系统的推荐效果。　

参考文献：　［１］　王立才，孟祥武，张玉洁．上下文感知推荐系统［Ｊ］．软件　学报，２Ｏ１２，２３（１）：１—２０．　［２］Ｚｅｎｇ　Ｃｈｕｎ，Ｘｉｎｇ　Ｃｈｕｎ－ｘｉａｏ，Ｚｈｏｕ　Ｌｉ—ｚｈｕ．Ａ　Ｓｕｒｖｅｙ　ｏｆ　Ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ，　２００２，１３（１０）：１９５２—１９６１．　ｒ３］　Ａｄｏｍａｖｉｃｉｕｓ　Ｇ，Ｔｕｚｈｉｌｉｎ　Ａ．Ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ　Ｔｅｃｈｎｏｌｏ．　ｇｉｅｓ：ａ　Ｐｒｏｃｅｓｓ—ｏｒｉｅｎｔｅｄ　Ｐｅｒｓｐｅｃｔｉｖｅ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　ｏｆ　ｔｈｅ　ＡＣＭ，２００５，４８（１０）：８３—９０．　［４］　董振东，董强．《知网》语义词典ＨｏｗＮｅｔ．ｔｘｔ［ＥＢ／ＯＬ］．　［２０１３—０５—０１］．ｈｔｔｐ：／ｗｗｗ．ｋｅｅｎａｇｅ．ｃｏｍ．　１－５］刘群，李素建．基于知网的词汇相似度计算［ＥＢ／ＯＬ］．　［２０１３—０５—０１］．ｈｔｔｐ　｜｜　．ｋｅｅｎａｇｅ．ｃｏｍ．　［６］Ｐｅｔｅｒ　Ｄ　Ｔ．Ｓｉｍｉｌａｒｉｔｙ　ｏｆ　Ｓｅｍａｎｔｉｃ　Ｒｅｌａｔｉｏｎｓ［Ｊ］．Ｃｏｍｐｕ—　ｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ　Ｊｏｕｒｎａｌ，２００６，３２（３）：３７９—４１６．　［７］Ｐｅｔｅｒ　Ｄ　Ｔ．Ｍｉｎｉｎｇ　ｔｈｅ　Ｗｅｂ　ｆｏｒ　Ｓｙｎｏｎｙｍｓ：ＰＭＩ－ＩＲ　Ｖｅｒ～　ＳＵＳ　ＬＳＡ　ｏｎ　ＴＯＥＦＬ［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１２ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｅｈｉｎ－ｌｅａｒｎｉｎｇ．［２０１３—０４—　２９］．ｈｔｔｐ：／／ｅｏｇｐｒｉｎｔｓ．ｏｒｇ／１７９６／５／ＥＣＭＬ　２００１．ｐｄｆ．　［８］　刘建国，周涛，汪秉宏．个性化推荐系统的研究进展［Ｊ］．　自然科学进展，２００９，１９（１）：１—１５．　

e商务文档

基于情感分析的商品推荐系统的设计与实现

相关文档推荐：