第2章 数据分析
交易及服务数据 行业数据
关键字搜索、店铺排名、销售、会员等数据查询
电商中重要的数据
数据 平均收入 UV独立访客数 客户获取成本 利润率 转化率 客单价 重复购买率 运营成本 活跃用户数 活跃客户率 参与指数
解释 网站在一定时间内的收入 平均每天的独立访问人数 获得一个新客户所付出的成本 访问的客户中成功完成购买的人数占比 每一个顾客平均购买商品的交易金额 消费者对该品牌产品或者服务的有重复购买 次数的比例 电子商务企业销售客服和数据运营的成本 在一定时间内活跃的用户数字 活跃用户占整体用户的比例 用户的平均会话次数
电商网站评分数据集 ——请计算C对商品4评分
用户 A B C D E 商品1 3 ? 5 2 3 商品2 ? 5 4 4 4 商品3 3 4 2 ? 5 商品4 5 ? ? 3 ?
相似性度量
Slope one 算法
Slope one算法
在本例中,项目2和1之间的平均评分差值为 (2+(-1))/2=0.5. 因此,item1的评分平均比item2高 0.5。同样的,项目3和1之间的平均评分差值为3 。因此,如果我们试图根据Lucy 对项目2的评 分来预测她对项目1的评分的时候,我们可以得 到 2+0.5 = 2.5。同样,如果我们想要根据她对 项目3的评分来预测她对项目1的评分的话,我 们得到 5+3=8. 如果一个用户已经评价了一些项目,可以这样 做出预测:简单地把各个项目的预测通过加权 平均值结合起来。当用户两个项目都评价过的 时候,权值就高。在上面的例子中,项目1和项 目2都评价了的用户数为2,项目1和项目3 都评价 了的用户数为1,因此权重分别为2和1. 我们可以 这样预测Lucy对项目1的评价:
网络中凡事皆有可能
Ebay: 1995年建立 拍卖的第一件物品:坏掉的雷射指示器,成交价是14.83美元 /comm/new_entry/index_2.html 7月14日,两名温哥华妇女用一支鱼形笔换了他的红色曲别针。不 久,西雅图的一名女画家用一个画着笑脸的陶瓷门把换了他的鱼 形笔。7月25日,美国麻省的斯帕克斯用一个野营炉换了把手。9 月24日,一名加拿大人用一台旧发电机换取了野营炉。11月16日, 一个纽约年轻人用一个啤酒广告霓虹灯、一桶啤酒换取了他的旧 发电机。12月1日,麦克唐纳用这些东西换取了蒙特利尔市一名电 台主持人的雪地车。不久,一家雪地车杂志社用一个免费度假安 排交换那辆雪地车;免费度假安排又换来一辆旧货车。随后的物 物交换包括录音合同,在美国凤凰城免费租用一年的双层公寓, 与著名摇滚歌星艾丽斯· 库珀一起喝下午茶,电视演员科尔宾· 伯恩 森在新片中提供的一个演员角色。最后,加拿大仅有1140个居民 的基普岭小镇,决定提供该镇的一套房子来换取麦克唐纳得到的 这个电影新片角色。
网页加载速度到底多少合适
网页加载速度对网站到达率有重大的作用。 >3秒,57%客户放弃 >5秒,74%客户放弃
大数据时代
可以分析更多的数据,有时候甚至可以处理与某个 特别现象相关的所有数据,不再依赖采样; 数据多,不再追求精度; 不再追求因果,而是相关关系。 目前,银行可以根据求职网站的岗位数量,推断失 业率
2
2
R平方
R平方,该方法借鉴多元线性回归的分析算法来判断 和选择对目标变量有重要意义及价值的自变量。 R平方表示模型输入的各自变量在多大程度上可以解 释目标变量的可变性。取值在[0,1]之间。
共线性问题
相关系数的方法 主成分分析方法 根据业务经验 对变量进行聚类
关联分析
电商中的核心数据
访客数
转化率
如何提升访客数 增加网站视觉效果: 店铺装修 商品内容的介绍和包装(图片) 商品的选款、设计合适的价格 提升好评率和客户评价 提升老客户回访率 服务质量 服务策略
客单价
促销和限销 关联销售 活动
数据需要对比分析
注:客户获取成本:以新客户总数量去除获取客户而支付的总费用 重复购买率 1. 所有购买过产品的顾客,以每个人为独立单位统计重复购买产品的次数。比如 10 个 客户购买了产品,有四个产生了重复购买,则重复购买率为 40%。 2. 单位时间内,重复购买的总次数占比。比如 10 个客户购买了产品,中间有四个人做 了第二次购买, 而这四个人中又有两个人做了第三次购买, 这两个人中又有一个人做了第四 次购买,则重复购买率为 70%。 参与指数=月(周)总访问数/月(周)独立访问数
熟悉业务背景 确保抽取的用户所对应的当时业务背景,与现在的业 务需求即将对应的业务背景没有明显的重要改变
数据转换
产生衍生变量 改变变量分布特征的转换 区间型变量的分箱转换 针对分箱变量进行的标准化操作
生成衍生变量
通过原始数据进行适当的数学推导,产生更有商业 意义的新变量 如:年龄、用户在特定商品上消费的产品占其总消 费额的比例、消费次数等等
每个用户会有一个10维的数据点,以0或1表示,1为是,0为否 可以计算任意用户之间的距离 如果不是0与1,展示的信息会更多 用户,性别,居住地,收入,购买次数,本月购买次数,最大购买金 额,平均购买金额
2.3 电子商务中的可获取数据
流量数据ቤተ መጻሕፍቲ ባይዱ
营销数据
会员数据
浏览量、访客数、登录时间、在线时长、登录IP等 营销费用、到达用户数、打开或点击用户数 姓名、出生日期、真实性别、网络性别、地址、手机号、微 博号、登录记录、交易记录等 交易金额、交易数量、交易人数、交易商品、交易场所、交 易时间、服务链服务等数据
于是,对“n”个项目,想要实现 Slope One, 只需要计算并存储“n”对评分间的平均差值和 评价数目即可。
基于项目的协同过滤
根据Pearson相关系数来计算相似度。R u,i 是用户u 对商品i的评分,i和j是商品
第2章 数据分析
大数据与乔布斯癌症治疗
苹果公司的传奇总裁史蒂夫· 乔布斯在与癌症斗争的 过程中采用了不同的方式,成为世界上第一个对自 身所有DNA和肿瘤DNA进行排序的人。这使得史蒂 夫· 乔布斯的医生们能够基于乔布斯的特定基因组成, 按所需效果用药。如果癌症病变导致药物失效,医 生可以及时更换另一种药。乔布斯开玩笑说:“我 要么是第一个通过这种方式战胜癌症的人,要么就 是最后一个因为这种方式死于癌症的人。”虽然他 的愿望都没有实现,但是这种获得所有数据而不仅 是样本的方法还是将他的生命延长了好几年。
主要内容
数据的重要性 电子商务中可获得的数据 数据处理和分析
2.1 从数据分析专家林彪说起
1948年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要 进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用 电台报告的当日战况和缴获情况。 司令员林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出 机枪、长枪、短枪;击毁和缴获尚能使用的汽车,也要分出大小和类别。 一天深夜,值班参谋正在读着下面某师上报的其下属部队的战报。说他们 下面的部队碰到了一个不大的遭遇战,歼敌部分、其余逃走。与其它之前 所读的战报 看上去并无明显异样,值班参谋就这样读着读着,林彪突然 叫了一声“停!”他的眼里闪出了光芒,问:“刚才念的在胡家窝棚那个 战斗的缴获,你们听到了吗?” 大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是 差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了 三句: “为什么那里缴获的短枪与长枪的比例比其它战斗略高”? “为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”? “为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”? 结论:赶紧追击,发现并打掉了精悍野战司令部,活抓了廖耀湘
数据的抽取要正确反映业务需求
某业务需求是找出因为使用店铺装修工具而带来显 著销售收入提升的用户群体特征 如何寻找这些人?
有些用户除了使用装修工具,还使用了其他方式 如竞价排名等方式 要保证找出的用户不包含使用了竞价排名等主要 的提升流量和销售收入等手段的用户,尽可能使 得这个用户群仅仅因为店面装修工具而带来的销 售收入的提升。 要求
数据不是万能的
2012年美国大选(结果却一边倒)
数据运营过程中存在的问题
领导的决断性 实际性 真实性 数据相关性 数据的稀疏性 数据的时效性
2.2 电子商务中的数据
卖什么产品利润高 卖什么产品销量大 什么时候卖产品最合适 怎么样搭配地卖 卖给谁最合适 什么样的客户会买 什么样的客户买得最多 到哪里去找这样的客户 如何廉价地找到这样的客户 如何留住这些客户 。。。。
如何面对铺面而来的数据
客单价显著上升,但人均成交件数并没有相应幅度的提高,即该店铺销售的商品 的单价变高。查看该店铺的宝贝销售排行并与T1 天对比,发现该店铺在周一时上 新了一款高价单品,带来了大量销售,另外有一款低价商品,也贡献了很高的转 化率
2.4 常见的数据处理技巧
数据的抽取要正确反映业务需求 数据抽样 分析数据的规模有哪些具体的要求 如何处理缺失值和异常值 数据转换 筛选有效的输入变量 共线性问题
协同过滤算法
基础
和你爱好合得来的人喜好的,你也很有可能喜好; 喜好一件器材 A,而另一件器材 B 与这件十分类似, 就很有可能喜好 B;
收集用户的偏好信息
显性数据 隐形数据
点击、搜索、购买
寻找相似的商品或者用户 产生推荐
基于用户的协同过滤
给定用户评分数据矩阵R 计算用户之间的相似度 根据评分数据和相似矩阵计算推荐结果
让数据说话
王永庆(台塑集团创始人)卖米 Target和怀孕指数预测
美国一名男子闯入他家附近的一家美国零售连锁超市Target 店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给 我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻 向来者承认错误,但是其实该经理并不知道这一行为是总公 司运行数据挖掘的结果。一个月后,这位父亲来道歉,因为 这时他才知道他的女儿的确怀孕了。Target比这位父亲知道 他女儿怀孕的时间足足早了一个月。 Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。 他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商 品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个 月左右,大量购买无香味乳液。几个月后,她们会买一些养 品,比如镁、钙锌。以此为依据推算出预产期后,就抢先一 步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。