题目大型超市“购物篮”问题分析摘要本文对于大超市商品的关联度以及商品最频繁同时购买问题进行分析,构建合理的数学模型,并给出可操作的商品销售方案。
问题一要求统计处理4717个顾客对999中商品的购买记录数据,建立数学模型,定量表达超市中多种商品间的关联关系的密切程度。
首先建立遗传算法,利用SPSS统计得出各个商品购买数量,并计算出标准差。
再对影响关联度的另一度量指标进行分析,将数据分类利用Matlab处理数据,得出商品间的欧氏距离。
最后加上实际影响因素,建立模型:综合以上分析可以得出,五种商品的购买组合中商品413,商品424,商品538,商品572,商品797,购买次数最高,102次,组合利润最高1485.399,总利润最高151510.698。
因此,将这组商品作为最优组合。
问题三要求根据问题1、问题2中建立的模型,对附件2中999种商品的利润进行分析,给出一种初步的促销方案。
对数据运用Matlab进行拟合,得出商品利润与商品之间的关联度符合线性关系。
对附件2中利润数据分类,分别计算结果。
最后,给出促销方案。
关键词遗传算法欧氏距离关联度贪婪算法一、问题背景和重述1.1问题背景超市购物属于日常生活,而每天来超市购物的顾客和购买的商品都具有不稳定性。
商品的销量会因顾客的喜好或时间的影响不断变化,又因商品购买存在随机性、多元性等特点,必须估测好每种商品的需求量。
如处理不当,很可能造成仓库囤积量增多,甚至造成超市利润损失过大。
商品购买是不确定的,但某种或某些商品会获得大多数人的认可,被顾客频繁购买。
在大型超市中,商品繁多、复杂,正确分析并估算顾客对某种或某些商品的喜好,将为超市经理合理设计进货方案、处理仓库、获得最大利润、搞推销、促销活动和购物赠送活动等提供理论依据。
商品市场分析和顾客购物习惯分析,作为超市一项基础性任务,不仅可以确定超市进货合理模式及合理促销方式,还可以为各大型超市确定今后整体规划、超市规模、商品购买后评估等提供更为科学的理论依据。
1.2问题重述现给出超市进一个星期的所有顾客购买物品的清单和相应商品的价格,分析所给数据,研究以下问题,并建立合理的数学模型:1、附件 1 中的表格数据显示了该超市在一个星期内的4717 个顾客对999 种商品的购买记录,表格中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。
根据附件1(详见附录1),建立一种数学模型,定量表达超市中多种商品间的关联关系的密切程度。
2、根据问题1中建立的模型,寻找一种快速有效的方法从附件1的购买记录中分析出哪些商品是最频繁被同时购买的。
3、综合上述分析和求解,分析附件2(详见附录1)给出的999中商品利润,并根据问题1、问题2中建立的模型,给超市经理一个合理的“购物篮”分析报告,提供一个促销计划的初步方案。
二、问题分析2.1问题一的分析要定量表达超市中多种商品间的关联关系的密切程度,首先要根据附件1表格中的数据统计出各种商品被购买的数量,可以建立基于神经网络算法的遗传算法模型。
遗传算法是一种适合于复杂系统优化计算的自适应概率优化技术,能够较好地计算复杂数据和概率。
超市商品种类繁多,表格中给出的数据量多,要将这些数据进行分类,计算出标准差和欧氏距离。
标准差是数据偏离平均数的距离平方的平均数,能反应一个数据集的离散程度。
欧氏距离是指m维空间中两个点之间的真实距离,或向量的自然长度。
本题中属于二维空间,因此表示的是数据的真实值。
在平均数相同时,标准差不能反映出各个数据之间的差别,欧氏距离可以。
最终,可以综合利用标准差和欧氏距离,更好地反映商品间的关联度。
2.2问题二的分析要分析说明999中商品中哪些商品是被最频繁同时购买的,并找出尽可能多的商品被频繁同时购买,就要先根据问题一所给附件1中的购买记录和问题一的模型,得出多种商品之间的关联度。
在遗传算法的基础上,运用贪婪算法对所得数据结果进行分类计算。
贪婪算法(Greedy algorithm)是一种对某些求最优解问题的更简单、更迅速的设计技术。
用贪婪设计算法的特点是一步一步地进行,常以当前为基础根据某个优化测度作最优选择,而不考虑各种可能的整体情况。
它采用自顶向下、以迭代的方法做出相继的贪心选择,每做一次贪心选择就将所求问题简化为一个规模更小的子问题,可得到问题的一个最优解。
问题二已知多种商品间关联度的数据结果,因此运用贪婪算法可将本问逐步简化为规模更小的问题。
2.3问题三的分析要给出一种初步的促销方案,使超市的效益进一步增大,就要先计算出999中商品各自给超市带来的利润,并综合商品的自身特质和顾客的喜好。
要求根据问题一、问题二建立的模型,求解问题三。
问题三属于方案题,不仅要计算统计客观数据,而且要综合多种因素考虑,并结合实际情况给出合理切实际的方案。
运用Matlab计算出各种商品组合的利润,包括单个利润、组合利润和总利润。
按照最优原则,选择符合条件的最优商品,结合问题一、问题二中的商品关联度和商品频繁购买数,选出综合最优商品。
对市场做多次调查,了解顾客喜好。
通过打折促销、赠送促销和人员推销等方法,增加商品购买力,获得更高利润。
三、符号说明由于本文在解答过程中出现很多符号,现将这些符号进行解释:四、模型假设为使得题目解决方便,现对一些客观存在但影响可忽略不计的因素进行假设:1、假设各个商品的利润保持不变;2、假设顾客收入基本稳定,经济发展较为平衡,即短时间内不会出现经济危机问题;3、假设表格中的数据能真实地反映当地消费者的购物情况;4、假设短时间内商品的销售情况维持稳定,不会出现大幅波动。
五、模型建立与求解5.1数据预处理及模型准备 5.1.1数据预处理对于附件1和附件2所给出的表格数据,发现存在少量数据的缺失。
由于表格中所给数据量大,相比较于999种商品和4717位顾客购买商品数量,缺失的数据相对可忽略不计。
由于附件1所给表格不能够直观地进行统计,就运用Excel 软件将大量数据进行分析处理,再将文本数据转化至表格。
通过SPSS 统计出各个商品被购买的次数,为保证结果的精确性,多次试算统计出每种商品被顾客购买的次数,绘制出表格3(全部数量见附件1)。
5.1.2模型准备设}...,321{n N ,,= 是所有项目的集合。
D 是所有事务的集合(即数据库),每个事务A 是一些项目的集合, A 包含在D 中,每个事务可以用唯一的标识符DNA 来标识。
设I 为某些项目的集合,如果I 包含在A 中,则称事务包含A ,就相当于两个不同的DNA 的相同序列 ,这里I 包含在A 中,H 包含在A 中,并且I ∧H =Φ。
其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务中也出现为简单化,将(I 包含在A )=>(H 包含在A )表示为H I ⇒,这里“⇒”称为关联操作。
5.2问题一模型的建立与求解大型超市商品种类繁多复杂,经营内容趋向大众化和综合化。
同时,超市自动标价、计价,节省了顾客的时间,也满足了顾客一次性购足的方式,深受顾客的喜欢。
超市经营方式要灵活,必须了解顾客对各种商品的购买情况,才能形成低成本、大流量的经营模式。
根据表1数据,采用商品的置信度表征商品之间关系。
因此,如果用n I C 次表示商品n 被购买的次数,所有商品的集合为}...,321{n N ,,=,n 种商品被购买次数之和为}...{21n I I I C C C +++,则各个商品的置信度为:一个标准筛选出关联度较大的商品。
将最小置信度设定为千分之四,从4717个原始数据项中得到个数为17的频繁项集。
按置信度降序排列,绘制如下表2:表2 17种商品的置信度度与最小置信度之间相差较大。
将上述区间分为8个区间,再利用Excel 绘制散点图如下:图1 各个区间内的商品分析散点图可知,在第1到第4区间商品数较多,第5到第8区间商品数较少。
即大多数商品关联度不高,只有少数商品关联度较高。
通过Matlab 软件均分置信度,求出各个区间内的欧氏距离与方差,比较欧氏距离与方差,得出商品间的关联关系的密切程度。
再根据表2的区间,运用Matlab 软件求解出欧氏距离与方差,绘制如下表4:表4 各个区间内的商品置信区间 [0,0.001)[0.001,0.002) [0.002,0.003) [0.003,0.004)欧氏距离 0.1888 0.0705 0.0245 0.0074 标准差 0.003030.002940.002750.00204置信区间 [0.004,0.005)[0.005,0.006)[0.006,0.007)[)0.007,0.008欧氏距离 0.0022 0.0020 0 0 标准差0.00177 0.00039 0利用Excel 绘制散点图如下:图2 欧式距离和标准差通过综合比较多种商品间的标准差和欧氏距离,可以得出共有623种商品关联度为0.1888,299种商品间关联度为0.0705,88种商品间关联度为0.0245,33种商品间的关联度为0.0074,11种商品间的关联度为0.0022,5种商品间的关联度为0.0020。
5.3问题二模型的建立与求解问题二要求根据问题一中建立的模型,分析出哪些商品是最频繁被同时购买的,求解出被同时购买的数量越多越好。
根据置信度的定义可推出,某商品组合的置信度越高,表示该组合越频繁被同时购买。
分析所给表1中的数据,将所筛选出的商品种类选出,运用贪婪算法找出最频繁购买的商品组合。
与问题一中两种商品的组合进行匹配,去掉重复项,得到两种商品组合,挑选出满足置信度的组合。
同样进行满足置信度的三种商品、四种商品、五种商品的选择……依次循环直到没有符合最低置信度的组合程序结束。
首先,要计算两种商品组合,依据置信度挑选出符合条件的商品。
截取前五位绘制如下表5:表5 两种商品组合的排名次数排名A B购买次数1368529334由表5可以看出,两种商品组合的购买纪录中,368号商品与529号商品的购买组合为最频繁购买组合,商品数为2,频繁出现334次。
和表5所用方法一样再计算三种商品组合,依据置信度挑选出符合条件得商品。
再截取前5位绘制表格如下:表6 三种商品组合的排名由表6可以看出,三种商品的购买组合中编号为368、489和682商品的购买组合为最频繁购买组合,商品数为3,频繁出现124次。
通过表5和表6可以看出编号为368号的商品,被购买最为频繁。
由于本题要求找出被频繁同时购买的商品数越多越好,因此最频繁购买的单一商品不合要求你,要对数据做更多种组合的处理。
依照前两项采用的方法——贪婪算法,计算四种商品组合,依据置信度对被频繁购买的商品次数进行排名。
由于数据量大,只能选取排名靠前的商品绘制表格。
此处选取排名前7位绘制表格如下:表7 前四种商品组合的排名由表7可以看出,四种商品的购买组合中编号为413、424、572、956和413、572、797、956和424、572、797、956商品的购买组合为最频繁购买组合,商品数为4,频繁出现107次。