当前位置:
文档之家› Hadoop大数据开发实战第01章 大数据概论
Hadoop大数据开发实战第01章 大数据概论
• Map
• 映射和分发
• Reduce
• 汇聚和聚合
MapReduce 执行流程
Sogou搜狗海量日志分析
需求
统计“仙剑奇侠传”这款游戏在互联网上的热度,进而为粉丝推送更精彩的游戏。
数据存储
HDFS文件系统
数据计算
MapReduce计算框架
那大数据到底是什么?
门槛绝壁很高
Marketing与学术男 眼中的大数据 特征
Volume
数据体量巨ห้องสมุดไป่ตู้ PB级->EB级->ZB级
速度要求快
Velocity
数据输出输入的速度
Big Data
Vanity
数据类型多样 文本|图像|视频|音频|
Value
价值密度低 商业价值高
Marketing与学术男 眼中的大数据
大数据之定义
是不是有点飘乎乎的感觉?
大数据案例
大数据基本概念
大数据之核心
1. 数据的存储 2. 数据的计算(处理)
全球信息数据概览
全球80%的信息是非结构化的。 非结构化信息正在以15倍于结构化信息的速率增长。 原始的计算能力正在以极高的速率增长,以至于现今的商用机器已开始
展现出5年前的超级计算机的能力。 对信息的访问已民主化:它可供(或者应该供)所有人使用。 数据量已经达到PB级->EB级->ZB级
定义
大数据是需要新处理模式才能具有更强大的决策力、洞察力和流程优 化能力的海量、高增长率和多样化的信息资产
Marketing与学术男 眼中的大数据
够大、够多、够快才是大数 据。大数据是不可逆的浪潮。 你就站在浪潮之巅。大数据 应该用在市场营销!大数据
应该有准确的定义!
“哲学”层面看大数据
为什么我们的星爷这几年拍 的电影越来越少?
—— “这是可行的!”
Google
• GoogleMapReduce • 首次发表于2004年12月,旧金山 • 基于GFS • 汲取了函数式编程的设计思想 • 把计算移动到数据
Google
• Google BigTable • 首次发表于2006年11月,西雅图 • 同样基于GFS • 同样是告诉大家 —— “这是可行的!”
“哲学”层面看大数据
“哲学”层面看大数据
典型因果关系,而这个社会 很多事情是解释不清的!
“哲学”层面看大数据
“哲学”层面看大数据
大数据是一种思维方式,因果->相关... 生活不只是眼前的苟且,还有诗和远方...
思维要跟上~~~~~
一个时代,一场革命
一个时代,一场革命
这是一场革命,庞大的数据资 源使得各个领域开始了量化进程, 无论学术界、商界还是政府,所 有领域都将开始这种进程。
为何从Hadoop开始
Hadoop在哪里?
这么多?
Hadoop分布式架构
• Master/Slave • Master节点
• NameNode NN • SecondaryNameNode SNN • ResourceManager RM
• Slave节点
• NodeManager NM • DataNode DN
Hadoop来了
• Hadoop是
– Apache开源软件基金会开发的 – 运行于大规模普通服务器上的 – 大数据存储、计算、分析的 – 分布式存储系统和分布式运算框架
• Hadoop2.0由三个部分组成
– 分布式文件系统HDFS – 资源分配系统Yarn – 分布式运算框架MapReduce
Google论文 vs. Apache项目
HDFS 从下面开始
YARN到上面了
大数据实战技术
MapReduce 计算框架
• 将计算移动到数据
硬盘存储成本不断降低 传输速率提升不大 磁头定位时间无提升
• MapReduce的特性
自动实现分布式并行计算 容错 提供状态监控工具 模型抽象简洁,程序员易用
MapReudce 分而治之
MapReduce 函数式编程
大数据概论
核心内容
大数据背景 大数据案例 大数据基本概念 大数据技术
大数据到底是个啥?
就这半瓶水 你想到的是什么?
仁者见仁
一条裙子引起一场颜色之争 不同人看出不同颜色
那大数据到底是什么?
技术?概念?思维?时代?
资深码农眼中的大数据
资深码农眼中的大数据
大数据当然是技术,一大堆 的技术,so many 平台, 那是相当复杂,分布式懂不?
传统的解决方案
• 甲骨文 Oracle数据库 • IBM DB2数据库 • 开源的MySQL数据库 • Sybase公司 Sybase数据库 • ...... • 一般处理的能力的在GB级别
Google
• GFS文件系统 The Google File System
• 首次发表于2003年10月,纽约 • 首个商用的超大型分布式文件系统 • 价值在于经验的分享,而不是架构的先进