大数据应用案例分析
职业是什么? 对什么感兴趣? 消费习惯和特征是什么?
赢利点在哪?
公司在哪?
年龄分布、区域分布是什么样的?
02 用 户 画 像 体 系
驾驶行为数据将构建精准的车险用户画像
性别 犯罪记录 年龄 国籍
地理位置
违章驾驶记录
驾驶时间
碰撞事故
车辆维修 收入情况 疲劳驾驶 酒驾经历 生活方式 使用药物情况
行为 习惯
TB
GB 在2011 年,这个数字达到了1.8ZB。
1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;
据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
目标 细分 用户 群体
用户特征
音乐 消费
者
学生 白领
பைடு நூலகம்
年轻,时间宽裕,喜欢新鲜, 爱评论爱分享爱展示,有个性
时间碎片化,有一定压力,会 关注娱乐界动态
IT从 压力大,需要更多消遣和心理 业者 慰藉
时尚 人士
热爱音乐和潮流,有个性
需求
1、个性化推荐音乐 2、对音乐有评论等互动行 为 3、分享展示喜欢的音乐 4、迅速找到喜欢的音乐 5、推荐潮流音乐 6、有明星动态
大数据应用案例分析
目录
1 大数据概念 2 大数据处理办法 3 大数据应用案例
1
大数据概念
01 大 数 据 时 代 到 来
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
PB EB ZB
值
异常数据
3
大数据应用案例
01 大数据是做好音乐平台的一把利器
钢铁锅,含眼泪喊修瓢锅
削个椰子皮,你却TM给个梨 爽歪的麻雀,在电线杆上裸睡
撒米拉带带,哇嘎哇嘎哎哟
啊呀
瑞 宁
马
瑞大
宁叔
瑞
四斤大豆,三根皮带
多情咱切抱刘继芬
宁 瑞
与 小
艾薇,莎啦啦,艾瑞噢喔噢喔,手刹
宁舅
想听的歌记不起名字???
瑞舅
宁
05 用户分析
05 用户分析
02 推荐歌单 —3种推荐维度和2种推荐算法
朋友推荐
通过微信微博等社 区软件进行传播分 享
人工推荐
网易音乐编辑人员 人工推荐的歌单和 电台。
智能推荐
通过大数据分析计 算后的智能推荐歌 单
以人为本 算法
“喜欢这首歌的人, 也喜欢XX”
喜欢:点击“喜 欢”、评论、下载、 收藏到歌单的人
大数据处理办法
01 用 户 画 像 体 系
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。
产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进
行精准投放。
购买能力如何?
活跃程度如何?
常住地在哪儿?
基本特征? 常去的商圈是哪儿?
开车地点 职业 驾照类别 开车频率 开车原因 健庩状况
医疗条件
共用车辆情况 婚姻状态
学习周期 感知力
教育水平 民族特征 消费习惯
购买 能力
心理 特征
通过对用户不同维度的大数据分析,最终得出可执行的业务决策。
基本 属性
兴趌 爱好
社交 网络
03 基于机器学习的数据挖掘及分类基本识别流程
训练样本
数据预处理
海量交互数据: 源于Facebook、Twitter、微博、及其 他来源的社交媒 体数据构成。它包括了呼叫详细记录 CDR、设备和传感 器信息、GPS和地理定位映射数据、 通过管理文件传输 Manage File Transfer协议传送的海 量图像文件、Web 文本和点击流数据、科学信息、电子 邮件等等。可以告 诉我们未来会发生什么。
04 产 品 竞 争
截至2016年7月呈现2亿音乐用户听歌行为以及2万音乐人活跃行为
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好 音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
职业分布:学生和IT从业者占据绝大用户群,企业中高层管理人员所占比例最少,另外的专业工作人 员所占比例区别不大,用户群体整体受教育程度普遍较高。
用户分析 05
—目标用户:(内容产生者是活跃音乐社区的关键)
目标 细分 用户 群体
用户特征
需求
音乐 内容 产生 者
音乐人 /DJ
作品找不到渠道,希望建立个 人品牌,更好的运营个人品牌
海量数据处理: 大数据的涌现已经催生出了设计用于数 据密集型处理的 架构。例如具有开放源码、在商品硬件 群中运行的 Apache Hadoop。
注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂
03 大 数 据 4V 特 征
大数据
解 决 方 案
产品
转 化
市场价值
1. 海量(Volume)
里程数据
数
工况数据 车辆信息 充电数据 行驶轨迹
数据 去重
空值
数据
处理
去噪
格式 统一
对齐融合
融融合合信信息息 数数据据库库
据 挖 掘 分
类
去除异常的数 据项
将空值更
的
汇聚多源异构 数据 中的 一致部分
过 程
将多源异构数
改为 对
使用UGC算法去除无用数
据转换 为统一
应的默认
据 使用基于密度的聚类去除
数据表达形式
*综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于 综艺或影视;
*偶像流行乐保持高热度,欧美歌曲受众提升; *音乐市场正在构建一种新的评价体系,评论数成为歌曲 热度重要评价指标;
*男歌手受喜爱度高于女歌手,女性歌迷消费群体经济崛 起;
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。
7、分享自己的口味
主要需求(音乐消费者)
1、播放音乐 2、发现音乐 (喜欢的、特别的、潮流的) 3、展示自我,有基于音乐的互动。
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。
通过数据可以发现网易云音乐用户群中19-30岁年龄段用户最多,占比达到48%,整体用户群偏年轻 化。
02 大 数 据 的 构 成
大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案
海量交易数据: 企业内部的经营交易信息主要包括联机 交易数据和联机 分析数据,是结构化的、通过关系数据 库进行管理和访 问的静态、历史数据。通过这些数据, 我们能了解过去 发生了什么。
想驾驭这庞大的数据,我们必 须了解大数据的特征。
以歌为本 算法
所听歌曲的标签在 其它歌曲也包含则 推荐该歌曲
02 计 算 公 式
矩阵计算得分的方式
潜在因子(Latent Factor)算法:这种算法是在NetFlix(没错,就是 用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法, 最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗 所介绍的算法误差(RMSE)会小不少,效率更高。我下面 仅利用基础的矩阵知识来介绍下这种算法。
构化 数据
如今的数据类型早已不是单一的文本形 式,网络日志、 音频、视频、图片、 地理位置信息等,对数据的处理 能力 提出了更高要求
4. 价值(value)
沙里淘金,价值密度低
虽然数据量很大,但是价值密度较 低,如何通过强大 的机器算法更 迅速地完成数据价值“提纯”,是 目前 大数据亟待解决的难题
2
训练样本
分词
特征选择
训
数据源
a.去除营销博文干扰 b. 库
练
去除提及人的干扰(@)
及
c.去除如门户的作者的干扰 否
测
试
过
模型评估 是否通过
训练生成 的模型
模型训练
特征权重计算
程
是
预
测
过
待预测类 别文本原 始库
数据预处理
待预测 类别文 本库
训练生成 的模型
文本打 上类别 标签
程
04 大 数 据 的 处 理
数据量巨大
全球在2010 年正式进入ZB 时 代,IDC预计到 2020 年,全 球将总共拥有35ZB 的数据量
3.速度( Velocity)
实时获取需要的信息 比如:在客户每次浏览页面, 每次下订单过程中都会 对用 户进行实时的推荐,决策已经 变得实时
2. 多样(Variety)
结构化数据、半结构化数据和非结
1、传播自己的音乐,让 更多的人知道 2、与粉丝有互动
歌手 有一定知名度,有粉丝基础
3、进一步提高知名度, 吸引更多粉丝
唱片 公司
商业机构,营利是最重要的目 的。
4、提高收入
音乐爱 好者
喜欢分享音乐,评论音乐
5、希望得到更多展示 (专栏)
主要需求(音乐内容产生者) 1、宣传音乐 (新歌、特别的口味) 2、宣传个人品牌 (演播厅、采访直播、互动等) 3、盈利 (版权收费、会员收费等)
这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A 喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor),如果 一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就 是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首 歌包含的元素也不一样。