当前位置：文档之家› (整理)数据挖掘-关联

(整理)数据挖掘-关联

数据收集及处理数据描述：本文的所采用的数据集来源于网络数据中心数据堂所提供的，来自主要电商平台：京东，淘宝，天猫，亚马逊，一号店的2013年10月20日至2013年10月22日的爽肤水交易信息。

数据集主要分为3个部分，第一部分为各平台上爽肤水的交易记录，单日的交易数据包含了19203条交易记录，14个变量，变了包括商品ID，电商名称，日期，商品名称，商品URL，促销价，商品销量销售额，店铺名称，店铺等级，品牌功效，适合皮肤，容量，如图所示为在EXCEL中打开的京东在2013年10月20日的交易数据。

第二部分为买家购买后的评价，单日包含925条的评论信息，6个变量，变量包含商品ID，购买时间，评论时间，昵称，评分，评论内容，如图所示就是2013年10月20日京东的评论信息。

第三部分为品牌数据集，一共51990条数据，7个变量，包括类目，品牌，电商平台，平均价格，日总销量，对应商品ID。

如图所示就是2013年10月20日所有电商平台的评判信息。

本论文所采用的数据全部来自于知名网络数据中心数据堂，具有相当的可信度。

经过对数据的观察，为了使得研究过程能够更加方便，我们选择数据较为完整并且有序的自于京东平台的交易信息。

由于本文目的是建立如何选择商品的模型，因此不会对结果造成影响。

数据初步处理：本轮问所有的数据都采用SAS中SQL语言与EXCEL相结合进行处理。

先对对京东平台上爽肤水的交易记录进行处理。

首先应该去掉与本文研究不相关的信息。

由于电商名称，日期，店铺名称与本文研究目标不匹配，同时在京东平台上并没有店铺信息，商品名称内容包含于品牌名称等其他变量中。

因此我们只选择其中的变量：商品ID，促销价，商品销量销售额，品牌功效，适合皮肤，容量。

将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计如图所示：我们可以发现,其中大多数商品的销售额都为0，是因为这里仅仅采用3天的交易数据，所以大多都没有销量。

因为没有销量的商品对本文的并无研究意义，因此我们只研究销售量大于0的商品。

采用SQL语言将3日的交易数据合并，并选取所需变量，并且将相同的商品进行合并。

Proc sql;CREATE table Homework.JD asselect * FROM Homework.JINGD1UNION ALLselect * FROM Homework.JINGD2UNION ALLselect * FROM Homework.JINGD3;Proc sql;CREATE table Homework.JDNEW asselect ID,PRICE,SUM(Q) as Q,SUM(INCOME) as INCOME,BRAND,EFFECT,SKIN,CAP from Homework.JDwhere Q>0GROUP BY ID;处理后的结果在SAS中打开的部分内容如下：为了使得变量能够满足分析的要求我们将利用EXCEL对数据进行预处理。

对于容量这一变量，格式为“500ml”或者“100ml + 10ml + 10ml”因此我们采用两个变量来描述，CAP和COMB，CAP表示容量的大小，我们这里将100ml以下定为小瓶，300ml以下为中瓶，以上为大瓶。

COMB为一个二元变量，1表示存在套装的情况，0则表示为单瓶。

处理之后结果为：对于功能这一变量，我们通过建立数据透视表查看结果。

EFFECT 汇总NULL 22保湿补水687保湿补水，控油平衡17保湿补水，控油平衡，美白祛斑 1保湿补水，控油平衡，美白祛斑，细致毛孔25保湿补水，控油平衡，美白祛斑，细致毛孔，祛皱抗衰8保湿补水，控油平衡，美白祛斑，细致毛孔，深层清洁 2保湿补水，控油平衡，美白祛斑，细致毛孔，深层清洁，祛皱抗衰26因此我们将采用一系列的二元变量E_BS(保湿)，E_KY(控油)，E_MB(美白)，E_XZ(细致毛孔)，E_KS(抗衰老)，E_QJ(清洁0来表示该品牌是否具有该种功效。

处理结果为：对于适合肤质这一变量同样采用数据透视表来查看：SKIN 汇总干性38干性、混合性 1混合型至油性 1混合性48混合性，干性 1混合性，油性 5混合性，油性，干性 1混合性，中性24混合性，中性，干性 1混合性，中性，干性，敏感性 3混合性，中性，油性12混合性，中性，油性，干性20混合性，中性，油性，干性，敏感性7混合性，中性，油性，干性，敏感性，所有肤质 2混合性，中性，油性，干性，所有肤质 6敏感性11偏干 1是 2所有肤质880推荐中性、干性、混合性及各种缺水性干燥肌肤。

1油性31油性及混合性肤质 2中性23中性，干性 1中性，油性 1中性及干性 1我们可以发现其中大多数产品都适用于所有肤质，因此我们将采用一个二元变量BSKIN来描述适合肤质这一变量，1带表适合所有肤质，0代表针对部分肤质。

处理部分结果如下：之后，对买家购买后的评价数据集进行处理。

由于技术方面的缺乏，本论文仅采用评分作为消费者对商品评价的唯一方式。

评价数据集中的数据来源于2013年10月20号到22号三天的时间产生的评论信息，因此有部分评论并不针对在这三天中所交易的商品，没有研究意义。

用SQL选择研究所需数据，并求评分的均值，方法如下：Proc sql;CREATE table Homework.SCORCE asselect ID,A VG(SCORCE) as SCORCE from Homework.PLGROUP BY ID;Proc sql;CREATE table Homework.JINGDONG asselect * from Homework.SCORCE a FULL JOIN Homework.JDNEWon a.ID=b.ID根据EM节点产生的统计信息如下我们可以发现SCORCE变量存在缺失值，因为并非所有商品都被评价，我们将保留缺失值。

对于品牌信息的描述：根据EM节点查看BRAND变量的统计信息如下：我们发现仅选择销量大于0的品牌，也存在着大量的变量，并且品牌名称并不能作为判断品牌优劣的依据。

在我们分析品牌效应的过程中，BRAND这一变量并不能表示品牌效应的作用。

因此我们将通过第三个数据集，产生一个新的变量SBRAND来对品牌进行分析。

第三个数据集代表的是全部主要电商平台，所有品牌的交易信息。

根据人的从众心理。

我们将按照全部电商平台中，品牌的总销量的排名来作为评判品牌优劣的标准。

利用SQL语言将3天的交易总量合并，并选择所需数据：Proc sql;CREATE table Homework.qtest asSELECT ID,BRAND,SUM(SALE) as SALE(select * FROM Homework.q20UNION ALLselect * FROM Homework.q21UNION ALLselect * FROM Homework.q22);由于京东平台并非包含全部品牌，因此我们只采用在京东上有销售的评品牌进行研究，用SQL语言进行选择，并将该表与原表连接：Proc sql;CREATE table Homework.SORTB asselet * from HOMEWORK.Qtest awhere a.BRAND in (select BRAND FROM HOMEWORK.JINGDONG);在SAS中查看部分结果：可以发现，并非在全网销量高的品牌在京东平台上销量就高，这表名数据满足我们的假设，即品牌并不是唯一决定销量的原因。

经过预处理之后的数据变量如下表：变量名称变量内容ID 商品IDQ 商品销售量PRICE 商品单价INCOME 商品销售额BRAND 品牌名称EFFECT 品牌功效描述SKIN 品牌所适合肤质SCORCE 商品打分CAP 商品的容量COMB 商品是否套装SALE 品牌全网销量排行E_BS 保湿功能E_KY 控油功能E_MB 美白功能E_XZ 细致毛孔功能E_KS 抗衰老功能E_QJ 清洁功能BSKIN是否适合所有肤质关联分析：为了研究主要哪些因素影响影响到销售量，我们首先对数据进行关联分析。

首先对数据进行预处理，为了进行关联分析我们需要采用EM中的TRANSFROM节点Q,PRICE,SCORE,SALE进行分类预处理处理，以Q为例：如下图所示，将Q分为3个部分：分类结果为：将所有变量改为分类变量并且加上标识符，最终结果为：通过转置然后进行关联分析，我们只关注Q变量，即只关注销量受到那些因素的影响。

首先，对于Q3类，即销量高的一类变量进行分析。

结果如下：根据结果我们可以“保湿1”以及S3的置信度是最高的，但总体的支持度和置信度都比较低。

通过观察数据我们发现，由于数据本身的特点，其中销量较低的商家占相当大的比重，因此Q3部分的支持度会非常低。

同时Q的分类的阈值为1，10当阈值过大时，如1,20时Q3的占比会小于5%。

但当阈值较小时，代表了有一部分实际并非属于Q3类的样本被归纳入Q3，从而就导致了置信度较低，但结果依然具有说服力。

从结果我们可以看出，对于保湿类产品中好的品牌的销量是其中销量最好的商品。

同时SC2，或者P1即评分高的商品或者价钱便宜的商品也会有很好的销量。

对于Q2类，即销量中等的一类变量进行分析。

在研究哪些因素能够提高销量的时候，我们只关注哪些变量存在的时候会提高销量，如产品拥有美白功效，或者拥有保湿功效，但不关注没有保湿功效这一关联规则。

在SAS中对关联结果进行筛选：关联结果为：根据关联分析结果我们可以看出，符合“大瓶，P1，COMB1,1”的商品能够具有中等的销量，即在同类商品中大瓶便宜适合所有肤质并且是成套出售的商品具有相对更高的销量。

同时，通过别的关联规则我们可以发现，S3也是一个重要的因素，即在同类商品中，消费者还是倾向与购买公知度较高的商品。

对于Q1类，即销量较低的一类变量进行分析。

本文关联分析Q1类的主要目的是想了解怎样的商品在电子商品平台上并不收到消费者欢迎，因此，我们更关注的应该是商品不具有哪一些功能，而不去关心商品具有哪一些功能，因此将在生成关联规则后进行如下筛选：筛选后的关联规则如下：根据关联规则我们可以看出，销售量低的商品通常具有以下特点。

首先是消费者评论商品的较低，或者为没有评论。

同时消费者在选择品牌的时候也不去选择不熟悉的品牌即S1，S2的品牌。

同时消费者也要求商品应该有保湿功能，并且更加倾向与套装的商品。

e商务文档

(整理)数据挖掘-关联

相关文档推荐：