当前位置:
文档之家› 大数据分析关键技术与服务创新
大数据分析关键技术与服务创新
工作流引擎
云计算引擎
大数据分析平台
Open API 提供数据挖掘平台 与第三方应用系统 的扩展接口 云存储
支撑海量数据 存储与管理
云计算大数据分析平台
平台 规模 110台服务器, 840 CPU核, 550TB 存储容量 数据库:MySQL5.0 商用版 云存储:Hadoop、Casendral 数据挖掘软件:Alphaminer、R
大数据分析关键技术与服务创新
黄哲学 博士 深圳大学特聘教授
内容提纲
1 2
数据分析与大数据 云计算与大数据分析
3
关键技术与服务创新
腾讯游戏与大数据分析
• 亿级在线用户、上百在线游戏 • 游戏平台系统记录每个用户在线玩游戏的详细数据,包括 游戏、时间、动作、结果等,数据超TB级 • 分析需求:
– 用户行分类与预测,用户行为客户群划分, – 用户挽留、用户奖励和级别提升
M R
?
Map 过程
?
?
?
Reduce过程
?
是 否 收 敛 ? 输出 聚类结 果
将对象分配给与其 最相似的聚类
重新计算 聚类中心点
MapReduce大数据随机森林算法
Layer
宽度优先、大规模分层建树策略
内容提纲
1 2
数据分析与大数据 云计算与大数据分析
3
关键技术与服务创新
云计算大数据分析平台
大数据云存储与管理
软件 环境
平台 功能
分布式并行数据挖掘任务执行 可视化数据分析执行引擎
大数据处理、融合与分析流程
数据格式及访问
• 超过35种数据库
– MySQL,Oracle,SQL Server, DB2,SAP,etc
• • • • • • • •
Text XML Excel Access Xbase files LDAP Geo-Data …
Analysis lab notes
挑战性科学问题
f1 1 2 f2 f3 f4 f5 … 成千上万个属性
超高维问题
1. 2. 3. 4. 5. 6. 混合数据类型 缺省值/噪声 相关性问题 Unbalance Subspace property Uninformativeness
n-4 n-3 n-2 n-1 n
回归 算法 关联 规则
Logistic Regression Random Forest Regression FP-Growth
交互式可视化建模分析
交互式可视化数据分析技术,交互式可视化随机森林分析系统, 实现人机交互驱动的模型优化,提高建模效率与分类精度。
功 能 指 标 随机森林模型图形化对象表示 数据可视化、分析过程可视化、 分析模型可视化 人机交互式操作实现模型优化 VisForest
Velocity 数据变化数据快
Variety 数据属性复杂
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位数据
1000亿+的服务供应商收入 为终端用户带来高达7000亿 美的价值
客户分群
三 班 型
两 班 型
稳定型
其 他 类 型
大数据
对数据的使用者来讲,如果数据集超出了使用者所拥有的 信息处理和分析的能力,就给使用者带来了大数据问题
大数据的3V特征
Volume 数据规模大
大数据的特点并不只是 数据规模大
Value
价值
选取客户不同维度的数据进行客户 分群
日周月用电模式 用户行业背景
用户地理信息
用户电力设备信息 地区宏观经济数据
通过对客户分群,获取用户不同的 用电模式
工作日双班制,三班制,四班制 周末长短周轮休 夜间用电高峰 行业间用电模式比较 不同地区不同行业用电模式比较 节假日及用电模式趋势预测
大数据分析平台
主
办:
TEG研发管理部 腾讯大讲堂 合作伙伴: 深圳大学、腾讯公关部
云计算大数据处理的核心技术
MapReduce 编程模型
运行时系统
虚拟文件系统
算法编程
•Map 和 Reduce 两 个基本操作 •大规模分布计算 •可扩展性
程序运行
•负载平衡 •任务调度 •容错
数据划分
•GFS (Google) •HDFS (Hadoop)
MapReduce编程模型
用户编程 程序写成Map和Reduce两步运算 1. Map统计单个文本词频 2. Reduce综合所有文本的词频
移动终端上的商务智能
分析平台系统框架
基于浏览器的BI分析平台
基于智能移动终端的BI分析平台
大数据分析与信息服务平台
基于WEB的数据分析流程设计工具
基于WEBD 数据管理工具
智能数据中心
大数据分析信息服务产业
技术及产业化优势:降低企业应用成本,技术积累和专业化服务,培育新的大数据 分析和信息服务产业。 •孵化面向不同行业的专业咨询公司、大数据分析公司和信息服务公司。
— 以区域性智能数据中心及高 速互联网为基础设施, — 以互联网服务体系为架构, — 以大数据存储、处理、挖掘 和交互式可视化分析等关键 技术为支撑, — 通过多样化移动智能终端及 移动互联网为用户提供数据 存储、管理及分析服务。
区域智能数据中心
区域智能数据中心
支持多种终端访问
关键技术
支撑海量数据处理、 挖掘与分析运算 数据处理分析流程图形化 设计数据处理分析流程 自动执行资源调度及优化 提供海量复杂数据 处理、分析与挖掘 高可扩展算法 高性能海量数据挖 掘算法库
主节点
(Map)
(Reduce)
节点
文件
文件
文件 文件 文件
节点 节点 节点
输出 输出
节点
文件划 文件划分 Map 运算 Reduce 运算 结果输出
MapReduce编程特点
K-means 算法 Pipeline 模式
M R
M R M R
输入 数据
M R
M R
M R
M R
M R
M R M R
M R
算法的测试性能达到TB级数 据的处理能力。
• K-Means算法性能
– 数据规模:1TB,1千万条数据* 1万维
– 执行效率:初始10个聚类中心,一次迭 代时间约30分钟
Random Forests
LDA
• Random Forests算法性能
– 数据规模: 110GB,1千万条数据*1千维 – 执行效率:建立20棵树约36分钟
百万以上甚 至超亿个记 录
大数据集的挑战 (Big Data Matrix)
云计算与大数据
• 云计算是一种新的大规模分布式计算模式
– 通过网络和资源 虚拟技术,实现计算及存储资源集 中管理,面向用户提供服务
• 云计算可以解决目前计算机使用的诸多问题, 是计算技术发展的一个新的里程碑
传统计算机的问题 •使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染 云计算的优点 •成本低 •易于普及 •可扩展能力高 •节能 •环保
1型糖尿病性神经炎 (原始记录)
疾病 匹配
糖尿病性神经炎 (ICD国际疾病分类标准)
疾病 分类
内分泌,营养和代谢疾病 (ICD国际疾病分类标准)
疾病分类
云计算大数据分析算法库
基于MapReduce模型,实现数据挖掘 算法分布式并行化。
K-Means 聚类 算法 K-Modes W-K-Means EWKM Decision Tree 分类 算法
QQ游戏是腾讯旗下自研的 休闲游戏社区平台,官方数 据显示,QQ游戏平台拥有 百款以上的游戏品类,2亿 量级活跃用户,最高同时在 线人数超过800万。
智能电网大数据
• 东莞工业的电力用户 达两万多家 • 每十五分钟采集电压 、电流、功率等数据 • 每月平均数据量达 85GB
用客户电行为模式大数据分析
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本 最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。
大数据产业链
传统应用领域
通信 金融 零售 制造
互联网
智能电网
数据清洗、转换与集成操作
• 模块化数据转换引擎 (无需编写代码) • 多种的转换方法
– Splitting – Partitioning – Merging – Joining – Duplicating – Mapping – Selecting – Calculating –…
医保数据处理工作流
电子商务
现代物流
智慧城市
新型应用领域
大数据带来的挑战
内容提纲
1 2
数据分析与大数据 云计算与大数据分析
3
关键技术与服务创新
挑战性科学问题
1. Patient 病人健康 Information 医疗数据
没有有效的数据集 成就不能进行有效 的综合数据分析
Hospital events ....admission, surgery, recovery, discharge
数据融合 (fusion) Access to Diverse Heterogeneous 数据集成 Distributed Data (integration ) 挑战
Expression Arrays
(various tissues)