大数据技术及应用方案
云计算
• 云计算是一种新的大规模分布式计算模式
• 通过网络和资源虚拟技术,实现计算和存储资源集中管理, 面向用户提供服务;
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑。
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
传统计算机的问题
8 58 男
24946.6 0
有
0
N
9 37 女
25304.3 2
有
0
N
10 54 男
24212.1 2
有
0
N
• 统计特征:平均年龄、男女比例、收入分布、有房贷比 例
• 聚类:根据客户的属性特征值将客户分组
• 分类:从数据中学习是否投资的分类模型
20
分类模型的学习及运用
训练样本
学习算法
分类模型
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
新数据
分类结果
分类模型
21
21
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据平台技术 4. 大数据应用
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
22
计算机系统的发展
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 23
拟机用户不需要维护。
• 当某虚拟机用户需求变化时,物理服务器的资源可以 自动扩展。
27
弹性化和可扩展性
• 弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计算能力 随着用户需求变化而增加或减少。
• 水平扩展智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
管理
每年2500亿欧元 每年生产率增长约0.7%
数据
1000亿+的服务供应商收 入
为终端用户带来高达
7000亿美的价值
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
美国零售业
净利率增长可能高达 60%+
每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研 发、组装成本
2
什么是数据?
数据是所表达的对象的信息载体,记录对象的属性特征。
学生成绩及排名 表
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
3
数据有多样化的表达形式
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 4
数据 》信息 》知识 》智慧
互联网+智能制造
智能制造
智能 设计
智能采购
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
智能 客服
智能 仓储
智能 销售
智能 运输
12
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据分析的挑战及技术创新 4. 大数据分析平台及应用
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
2019
大数据技术及应用方案 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据平台技术 4. 大数据应用
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
• 向外扩展 Scale out—增加资源 • 向内收缩 Scale in—减少资源
• 垂直扩展
• 向上扩展 Scale up—提升CPU和内存 • 向下收缩 Scale down –降低CPU和内存
云服务器
28
面向服务 Service Orientation
• 云计算的独特特征是服务导向或面向服务,就是将计算和存储资源 作为服务供用户使用。
数
据
Reduce过 程
是 输出 否 聚类 收 结果
将对象分配给与其 最相似的聚类
敛
重新计算 聚类中心点
?
34
MapReduce编程局限
决策树递归算法
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
MapReduce编程难以实现决策树递归算 法
35
Spark RDD 计算模型
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
据平台、数据中心等基础设施。
10
“大智移云”时代
• 大数据、人工智能、移动互联网和云计 算是新一代信息产业发展的重点方向。
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
• 2015年8月31日:《促进大数据发展行 动纲要》
• 2015年12月29日:《“互联网+”行 11
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 5
数据的大小
• 1 bit (比特)= 1位二进制,0 和 1 两个状态 • 1 Byte(字节)= 由8 bit(位),例 11001010,可以表达256个状态,
2的8次方 • 1KB (kilobyte)=1024B • 1MB (megabyte)=1024KB (兆字节) 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 • 1GB (gigabyte)=1024MB(千兆字节)
百万以上 甚至超亿
大数据集的挑战 (Big Data Matrix)
个记录 31
大数据分布式存储
• 大数据分布式存储 (HDFS)
大数据文件 大数据文件 划分 大数据文件 智慧小分区布云式服存务储平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
32
MapReduce计算模型
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
17
数据分析与挖掘
关联分析
分类模型
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
聚类分析
预测模型
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
18
对象及属性
社交群体的属性:
1. 基本属性
性别、年龄、职业、住址、 收入、…
2. 喜好 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
读书、旅游、交友、…
3. 行为
购买记录、行为记录、手 机日志
社交网络图
4. 观点
对某些事件的观点
19
对象数据的表达
对象 年龄 性别
收入 子女数
有无车 房贷 是否投资
1 48 女
17546 1
无
0
Y
Map 运算
Reduce 运算 结果输
出
33
MapReduce编程特点
K-means 算法 Pipeline 模式
MR MR MR
MR
MR MR MR
MR
M R M R M R M R 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
?
?
?
?
?
输
入
Map 过程
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
15
数据存储
中央磁盘存储
云存储
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
16
数据处理、转换和融合
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
• 1TB(terabyte)=1024GB(百万兆字节)
• 1PB (petabyte) = 1024 TB (百亿兆字节)
6
大数据
大数据 = 交易数据 + 交互数据 + 观测数据
传感器/RFID/移动终 端 用户点击流数据
Big Da情t感a数据
用户生成内容
Web 日志
WEB
动态定价
用户间交互 & 上传
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
25
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案
• 服务的收费方式是谁使用谁付钱,例如: 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 • 付使用存储服务的费用 • 付使用CPU的费用 • 付使用数据库软件的费用 • 用户不拥有这些资源,因此不需维护它们 29
云服务应用的部署模型
• 公有云 Public cloud • 私有云 Private cloud • 社区云 C智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 • 混合云 Hybrid cloud
2 40 男
30085.1 3