大数据介绍课件
大数据(Big data或Megadata),或称巨量数 据、海量数据、大资料,指的是所涉及的数据量 规模巨大到无法通过人工在合理时间内截取、管 理、处理、并整理成为人类所能解读的形式的信 息。
数据大爆炸
地球上至今总共的数据量:
在2006年,个人用户才刚刚迈进TB时代,全 球一共新产生了约180EB的数据;
大数据时代的背景
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经累积到了开始引发变革 的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。如今,这个概念 几乎应用到了所有人类智力与发展的领域中。
…
Face 社交网络 book
电子商务 淘宝
…
…
微博、 移动互联 Apps
21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓展 了互联网的边界和应用范围,各种数据正 在迅速膨胀并变大
互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器、智慧 地球)、车联网、GPS、医学影像、安全监 控、金融(银行、股市、保险)、电信 (通话、短信)
大数据的定义
的访问 ➢ 通常一个机器就是一个DataNode数据节点,DataNode管理本节点上数据的存储 ➢ 在HDFS内部,一个文件被分割为一个货多个数据块,并且这些数据块被存储在一批DataNode
中 ➢ NameNode执行文件系统中命名空间的操作(打开、关闭、重命名文件和目录),NameNode
在2011年,这个数字达到1.8ZB.
PB EB ZB TB
GB
到2020年,整个世界的数据总量会增长44倍, 达到35ZB
想要驾驭着庞大的数据必须 先了解大数据的特征
大数据具有4V特征
容量 (Volume)
海量数据处 理,难以集 中存储和计 算
➢ TB ➢ PB ➢ EB
速度 (Velocity)
存储:
➢ 结构化数据: • 海量数据的查询、统计、更新等操作效率低 ➢ 非结构化数据: • 图片、视频、word等文件存储 • 不利于检索、查询和存储 ➢ 半结构化数据: • 转换为结构化存储 • 按照非结构化存储
解决方案: ➢ Hadoop ➢ 流计算
用户
数据可视化
数据挖掘(数据仓库、olap、商务智能等)
批处理
交互式
流处理
资源管理
数据存储(SQL和NoSQL) 数据收集(ETL(kattle)、提取、转换、加载)
数据源(互联网、物联网、企业数据)
(6)、数据展示 (5)、数据分析 (4)、计算框架 (3)、资源管理 (2)、数据存储 (1)、数据收集、准备
Hbase的优劣
• 1、动态可扩展的,创建表的时候不需要知道有几列,只需要指 定有几个column family,并且列为空就不存储数据,节省存储空间。
快速地数据 传输
➢ 流模式 ➢ 实时 ➢ 准实时 ➢ 批量
多样性 (Variety)
多种多样的 数据类型
➢ 结构化 ➢ 半结构
化 ➢ 非结构
化
价值 (Value)
巨大的数据 价值
➢ 高价值 ➢ 低密度 ➢ 碎片化 ➢ 高离散
化
传统数据与大数据对比
数据规模 数据类型
数据与模式关系 处理对象
传统数据(DB) 小(MB) 单一(结构化)
• 为什么列是动态的?统计淘宝访问量和购买量,新平台的统计, 传统关系型数据库需要停机维护,而Hbase支持动态增加
• 2、多版本数据 根据Row key和Column key定位到的Value可以有任意数量的版本值, 因此对于需要存储变动历史记录的数据,用HBase就非常方便了。
• 3、支持事务较弱,所以有事务支持的时候都会选择传统的关系 型数据库,Hbase事务仅仅是针对某一行的一系列Put/Delete操作。 不同行、不同表间一系列操作是无法放在一个事务中的。对一张 多Region表来说,还是无法保证每次修改都能封装为一个事务。
计算框架
• 批处理: mapreduce
例:报表
• 实时性:(毫秒级)storm 例:信用卡欺诈
• 交互式分析:(秒级)spark
数据挖掘
数据挖掘是指从大量的数据中通 过算法搜索隐藏于其中信息的过程
数据 挖掘
从海量的 数据中
Hale Waihona Puke 找到有价值的 金矿
数据可视化
大数据主要应用技术---Hadoop
Hadoop是一个由Apache基金会所开发的分布式 系 统 基 础 架 构 Hadoop 的 框 架 最 核 心 的 设 计 就 是 : HDFS和MapReduce。HDFS为海量的数据提供了存储, 则MapReduce为海量的数据提供了计算。
Hadoop核心设计
MapReduce HDFS
两大核心设计
Map:任务的分解 Reduce:结果的汇总
NameNode:文件管理 DataNode:文件存储 Client:文件获取
HDFS架构
➢ 主从(Master/Slave)体系结构 ➢ 只含有一二NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件
运行平台: Linux、Mac OS/X,Solaris,Windows
高可靠性
高扩展性
Hadoop 优点
高容错性
高效性
低成本
1、高可靠性:hadoop按位存储和处理数据的能力值得人们信赖。
2、高扩展性:hadoop是在可用的计算机集簇之间分配数据并完成计算 任务的,这些集簇可以方便地扩展到数以千计的节点中。
现有模式后有数据 数据
大数据(BD) 大(GB、TP、PB) 繁多(结构化、半结构化、非结构化)
现有数据后有模式,模式种类繁多 各种类型
相关技术
分析技术:
• 数据处理:自然语言处理技术 • 统计和分析:A/B test;top N排行榜 • 数据挖掘:关联规则分析;分类;聚类
大数据技术:
• 数据采集:ETL工具 • 数据存取:关系数据库;NoSQL;SQL等 • 基础架构支持:云存储;分布式文件系统等 • 计算结果展现:云计算;标签云;关系图等
3、高效性:能够在节点之间动态地移动数据,并保证各个节点之间的 动态平衡,因此处理速度非常快。
4、高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失 败的任务重新分配。
5、低成本: hadoop本身是运行在普通PC服务器组成的集群中进行大数据 的分发及处理工作的,这些服务器集群是可以支持数千个节点的。