当前位置:
文档之家› 大数据在各行业应用典型案例分析
大数据在各行业应用典型案例分析
算法方案: ✓ 基于用户画像的推荐算法 • 根据用户画像对房源进行筛选 • 属性按重要程度加权 • 计算用户对房源综合评分,Top-k形成推荐结果 ✓ 基于用户行为的推荐算法 • 矩阵分解:SVD,NMF • 协同过滤:基于用户/物品相似性度量 • 决策树:GBDT
365网推荐系统:个性推荐
推荐结果:
主要创新点
✓ 为Hadoop系统提供图形化管理界面 ✓ 基于Map/Reduce编程模型,对常用的数据挖掘算法进行并行化 ✓ 基于XML技术,为大数据建立元数据管理系统 ✓ 应用MVC开发框架,提供可扩展的、易用的大数据分析平台
主要功能
主要核心算法
基本算法 WordCount, TF-IDF, 排序, 距离计算(Euclidean, Manhattan) 聚类算法 K-means, Canopy ,Graph Mining(the Shortest Path) 分类与预测算法 KNN, Naive Bayesian, SVM, BP Neural Network, Locally-Weighted, Linear
全南京市,5000基站,8个指标,24小时值,之前一年数据量>10GB
电信大数据:话务预测
需求:通过对各小区(一个基站包含多个小区)上指标分析与建模,预 测各小区未来某天的指标值。
数据量:全南京市,7000多小区,8个指标,24小时值,一年数据量 >13GB。
任务:根据需求,预测任务具体分为两类,
特征维度 推荐点击率
精确度
协同过滤 1379 6.18% 2.14%
SVD 4
18.54% 3.02%
各算法推荐效果对比
NMF 10
18.16% 3.66%
大数据技术和案例分析
3
工业大数据应用
主要案例
电信大数据 ✓ 中博信息技术研究院有限公司 ✓ 话务预测 ✓ 大规模电信数据离网用户预测与分析 ✓ 电信产品健康度管理系统
常预警。
六,日
一,二 pattern
实时周一 预警!
三,四,五
一,二
1
1 2 34
全网全指标预测
——高斯特征抽取聚类
x0 x1 x2 x23
以天为粒度构成序列:
x0 1 2 23 where k xk xk1
依据n个历年同期序列,可以抽出48个特征值:
n
0
1
2
3
Hale Waihona Puke 230 ,0 , 1,1, 23,23
365网推荐系统:项目概况
365网推荐系统:用户画像
365网推荐系统:用户画像
算法方案: ✓ 冷启动用户:热门标签 ✓ 低频访问用户:使用K-means进行用户聚类,为目标用户找到距离最 近的聚类中心,将聚类中心的标签作为其画像。 ✓ 高频访问用户:使用频次统计结合行为优先级加权,按频率设定标签。
每个小区每天可以表示成48维的特征向量,针对小区进行特征聚类,利用聚类 结果以及以往同期数据进行预测。
主要案例
电力(环保)大数据 ✓ 江苏方天电力技术有限公司 ✓ 环保设施工况寻优模块建模及典型机组应用技术服务 ✓ 火电机组运行人员行为分析模块建模及典型机组应用技术服务 ✓ 燃煤机组超低排放监测数据辨识模型建模及典型机组应用技术服 务项目
电力(环保)大数据
数据描述
数据主要由源于发电机组内部传感器数据以及除尘、脱硫、脱硝等环保 设备的运行参数和环境温度等外部因素构成。
大数据在各行业应用 典型案例分析
提纲
1
大数据应用背景
2
互联网大数据应用
3
工业大数据应用
4
政务大数据应用
5
大数据与智慧城市
大数据案例分析
1
大数据应用背景
美国棱镜计划
9家互联网公司,10种类型数据
美国棱镜计划
技术概述
技术名称 ✓ 并行大数据分析工具箱(DoDo Toolbox)
技术目标 ✓ 实现基于云计算平台的大数据分析关键技术及应用平台 ✓ 通过对Hadoop系统进行封装,提供了一套用户友好的基于 图形化界面的软件系统 ✓ 基于Map/Reduce框架的数据挖掘并行化算法 ✓ 提供一个可扩展的、易于使用的大数据分析平台
大数据技术和案例分析
2 互联网大数据应用
365网推荐系统:项目概况
需求:通过对365网APP端和Web端的用户访问日志学习推荐系统模型到达 提高点击推荐到买房的转化率的目的。
数据量: ✓ 每天登陆的不同用户数:PC端10万级;APP端万级 ✓ 每天产生的日志记录:PC端和APP端均有百万条 ✓ 房源数量级:新房1.8万,二手房200万套左右 ✓ 高峰时段并发访问:万级用户
算法结果: ✓ 个性化用户画像精准定位
365网推荐系统:用户画像
365网推荐系统:个性推荐
模块需求: ✓ 推荐结果:根据用户访问记录结合用户画像、房源标签,预测用户可 能感兴趣的房源 ✓ 实时更新:推荐列表随用户点击实时变化 ✓ 个性化推荐:“千人千面”
2016/11/5
365网推荐系统:个性推荐
Regression(LWLR), Logistic Regression 关联规则算法 Apriori, FP 协同过滤算法
User-Based Collaborative Filtering(CF), Item-Based CF 中文处理 分词(具有新词学习和词库扩充功能) 网页解析
VIPS,DOM-Tree, PageRank, InvertedIndexing
✓ 工作日,周末
异常小区预警
行业应用
干道预警 景区预警
✓ 七个法定节假日
全网预测,高效调整和保障
异常小区预警 ——平滑特征抽取,时间维度聚类
异常预警处理方法:
针对小区历史数据,提取每天特征值(平滑后12个值); 对该小区一周七天进行聚类(例如上述例子可以分为两类),并且以属于该
类的聚类中心进行线性插值后的24个值作为一小区的平时正常话务量; 实时监测小区话务量,如果某小区某天值连续超过该类的正常值,则进行异
国内外竞争产品
Weka ✓ 新西兰Waikato大学研发 ✓ 数据源/数据格式/算法/用户界面 ✓ 单机算法(分类、聚类、关联规则等等)
Mahout ✓ Apache开源项目 ✓ 采用Map/Reduce,并行化数据挖掘算法 ✓ 用户界面:命令行交互
DoDo ✓ 自主知识产权 ✓ 采用Map/Reduce,并行化数据挖掘算法 ✓ 友好的图形界面