基于数据挖掘方法下的大众点评网美食类商家评分研究上海立信会计学院曾晨、张瑾、张瑞目录一、引言 (2)二、研究方法综述 (3)(一)数据来源 (3)(二)变量选择 (3)(三)理论简介 (3)三、数据分析 (8)(一)各省份受欢迎的美食即当地饮食习惯的关联分析 (8)(二)探究商家是否连锁与其星级的关系 (13)(三)聚类分析 (15)(四)利用决策树建立消费者选择模型 (18)四、结论和建议 (22)参考文献 (23)附录 (24)图目录图1决策树树形结构 (7)图2各个省、直辖市餐饮类商家数目 (9)图3不同美食种类的商家数目 (9)图4第1到22项关联规则 (10)图5第23到44项关联规则 (11)图6辽宁省与其饮食习惯的关联规则 (11)图7上海市与其饮食习惯的关联规则 (12)图8广东省与其饮食习惯的关联规则 (12)图9四川省与其饮食习惯的关联规则 (13)图10连锁店与非连锁店比例 (13)图11非连锁店商家的星级频数分布图 (14)图12连锁店商家的星级频数分布图 (15)图13餐饮类商家星级系谱图 (16)图14餐饮类商家聚类数目 (16)图15第一类餐饮商家星级 (17)图16第二类餐饮商家星级 (17)图17第三类餐饮商家星级 (17)图18第四类餐饮商家星级 (18)图19好评与非好评的商家数量条形图 (19)图20决策树模型的基本信息 (20)图21各节点的重要性 (21)图22决策树 (21)图23决策树模型预测效果 (22)表目录表1连锁与非连锁商家的总体情况 (13)摘要随着互联网的飞速发展与智能手机的普及,人们的生活方式发生了巨大的变化。
手机APP作为互联网发展的重要产物,为人们的日常生活,例如交通、购物、饮食、住宿、教育等提供了极大的便利。
大众点评作为人们日常使用率最高、商家覆盖面最广的手机软体之一,极大地影响了人们的日常生活,不仅方便了人们的休闲娱乐,还满足了人们对衣食住行的多样性需求。
“民以食为天”,消费者在选择餐厅时往往会通过点评网站去浏览相关餐厅的用户评价、商家评分以及是否具有优惠,并以此作为参考来做出选择。
因此,研究影响消费者选择商家的因素,不仅对消费者本身做出决策有意义,对创业者选择投资方向和商家改善自身管理同样提供了参考依据和有效信息。
本文根据数据堂()提供的大众点评2014年4月更新后的1000家美食类商家数据,筛选出15个变量进行关联分析、聚类分析、决策树等数据挖掘方法探索地域与饮食偏好的关联度,为对消费者和创业者都提供了良好的经营决策方向;通过对所有商家进行系统聚类来探索每类商家与商家星级的关系,让消费者在选择餐厅时注意星级标准,以满足自身的用餐需求;最后利用决策树建立消费者选择模型,让消费者浏览餐厅信息时理性做出就餐选择,同时根据消费者市场的需求,餐厅经营者可以做出相应的营销策略的调整,改善餐厅服务质量,迎合消费者心理,在纷繁复杂的餐饮业增强竞争力,赢得自己的市场份额。
在模型的建立和数据分析过程中,本文采用R.3.2.1和Microsoft Excel 2010软件。
关键字:大众点评关联分析聚类分析决策树饮食习惯消费者选择模型一、引言互联网改善了人们的沟通方式,学习方式,也改变了商务的方式。
随着互联网的普及,网络技术和电商平台也日趋完善。
如今,消费者不止满足于电商带来的便捷,更对电商平台的口碑评价越来越关注,也使得电商平台口碑评价成为打造电商品牌的重要途径。
大数据时代下,客户洞察、营销规划、物流管理、流程规划、风险控制等,都将受益于大数据相关技术。
相比于线下零售,电子商务网站具备非常丰富的客户历史数据。
通过这些数据的分析,能够进一步了解客户的购物习惯、兴趣爱好和购买意愿,并可以对客户群体进行细分,从而正对不同的用户对服务经行调整和优化,进行有针对性的广告营销和推送,实现个性化服务。
智能手机和手机APP同样也是电商中不可缺少的重要组成部分,随着智能手机的普及与APP的蓬勃发展,人们将生活重心转移到手机软体中,手机APP有很多,涵盖了一切人们所需,包括购物、旅行、健身等等,此次我们选择大众点评这一手机软体的数据来进行分析有两个原因。
首先,大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(Online To Offline)交易服务。
其次,大众点评属于较早的软件,使用人群广,受众人群普遍,没有特别明显的年龄差距,并且大众点评涵盖了日常的衣食住行等,数据齐全,可以反映较为精准的有效信息。
由于大众点评涵盖门类过多,本文我们具体选择“食”这一大类进行数据挖掘。
根据1000家餐饮类商家的数据,我们挑选出消费者浏览餐饮类商家信息时最关注的指标,然后对这些指标进行分析,分别研究了美食种类与地域分布的关系即当地饮食习惯的研究、餐饮类商家连锁与否是否与其评分星级有对应关系以及建立消费者选择模型为创业者确立投资目标、消费者理性选择餐厅和餐厅经营者营销策略的调整提供理论依据。
二、研究方法综述(一)数据来源本文采用的数据来自数据堂(/data/46472)的大众点评网2014年4月份数据(样例),数据集共有2014年4月大众点评1000家美食类商家的样本,共1001行45列,主要包括商家店名、地理位置、主营食物、联系方式、商家评分等信息。
(二)变量选择样本包含45个变量,本文主要选取了消费者关心的信息指标以及直接影响消费者决策判断的变量,分别是:商家店名(name)、商家所在省份(province)、商家经营的美食种类(small_cate)、商家星级(stars)、人均价格(avg_price)、菜品质量评分(product_rating)、环境评分(environment_rating)、服务评分(service_rating)、所有评价(all_remarks)、非常好评(very_good_remarks)、好评(good_remarks)、一般评价(common_remarks)、差评(bad_remarks)、极差评(very_bad_remarks)、是否连锁(is_chains)15个变量,剔除掉与分析过程无关的30个变量。
(三)理论简介数据挖掘(Data mining),又译为资料探勘、数据采矿。
就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
广义的数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。
数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
知识发现过程由以下步骤组成:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘6)模式评估(7)知识表示。
数据挖掘的4个发展阶段:第一阶段:电子邮件阶段。
这个阶段可以认为是从70年代开始。
第二阶段:信息发布阶段。
从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。
第三阶段:EC(Electronic Commerce),即电子商务阶段。
第四阶段:全程电子商务阶段。
随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。
数据挖掘的本质就是数学建模,其涵义与统计分析建模方法一致。
因而数据挖掘也称为现代统计。
传统的统计分析建模方法的基础是经典数理统计方法。
已有结论多基于“大样本,少变量,多输入,单输出”的条件。
对当前海量数据中出现的“大样本,多变量”,“少样本,多变量”,“多输入,多输出”以及“离散型输出”等类型能较好地解决。
数据挖掘常用的技术有关联分析、聚类分析、决策树、人工神经网络、遗传算法、随机森林等,各种方法都有自身的功能特点以及应用领域。
本文我们使用关联分析来探究美食分类与各省份之间的关联或相互关系,聚类分析则是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式,本文利用product_rating(菜品质量评分)、environment_rating(环境评分)、service_rating(服务评分)三个变量对商家进行聚类,探索每类商家与商家星级的关系,最后我们对商家好评率建立决策树,为消费者进行选择时提供参考依据。
1.关联分析1.1背景介绍关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。
假设分店经理想更多地了解顾客的购物习惯。
特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。
该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。
这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。
1993年,Agrawal 等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS ,但是性能较差。
1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori 算法,至今Apriori 仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
1.2定义关联分析是一种简单、实用的分析技术,也是数据挖掘的核心技术之一,用来查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,简单来说就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
以下引入几个基本概念来对关联分析进行简要阐述。
1.2.1项集:既是集合的概念。
例如一篮子物品中一件为一项(Item),若干项的集合为项集。
1.2.2关联规则:一般记为X →Y 的形式,左侧的项集x 为先决条件,右侧项集y 为相应的关联结果,用于表现出数据内隐含的关联性。
例如:关联规则项尿布→啤酒成立则表示购买了尿布的消费者也会购买啤酒这一商品,即这两个购买行为之间具有一定关联性。
至于关联性的强度如何,我们引入三个核心概念——支持度、置信度、提升度来控制和评价。
1.2.3关联强度:a.支持度(Support)——是指在所有项集中某项集{X,Y }出现的可能性,即项集中同时含有X 和Y 的概率。
),()(Y X P Y X Support =→公式(1)该指标作为建立强关联规则的第一门槛,衡量了所有考察关联规则在“量”上的多少。
其意义在于通过最小阈值(minsup,Minimun Support )的设定,来剔除那些“出镜率”较低的无意义规则,而相应的保留下出现比较频繁的项集所隐含的规则。