当前位置:文档之家› Hadoop大数据平台构建与应用 第1章 大数据与Hadoop平台技术

Hadoop大数据平台构建与应用 第1章 大数据与Hadoop平台技术


第1章 大数据与Hadoop平台技术
·大数据时代 ·大数据关键技术
·大数据涉及的主要软件 · Hadoop平台技术的生 态
✎ 学习目标
1 熟悉 2
键技术
了解 大数据的特点、应
4 用领域
了解 大数据主要技术 3
✎ 目录页
1.1 大数据时代 1.2 大数据关键技术 1.3 大数据涉及的主要软件 1.4 HADOOP平台技术的生态
快处理速度。 Hadoop 还是可伸缩的,能够处理 PB 级数据。 此外,Hadoop 是开源的,因此它的成本比较低,任何人都可以
使用。
✎ 1.4Hadoop平台技术的生态
2、Hadoop生态
✎ 本章小结
本章主要介绍了一些大数据平台的入门知识,包括大数据关键技术、 大数据涉及的主要软件 、HADOOP平台技术的生态等。
✎ 1.4Hadoop平台技术的生态
1、Hadoop的特点 Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它
维护多个工作数据副本,确保能够针对失败的节点重新分布处理。 Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加
✎ 1.1 大数据时代
大数据就是海量资料或者称巨量资料,这些 巨量资料来源于世界各地随时产生的数据, 在大数据时代,任何微小的数据都可能产生 不可思议的价值。
✎ 1.1 大数据时代
大数据有4个特点 (4V ): Volume(大量) Variety(多样) Velocity(高速) Value(价值)
✎ 1.3 大数据涉及的主要软件
表1-3 本书涉及的主要大数据软件
支持系统与大数据技术 虚拟机 Linux操作系统 JAVA环境与开发 分布式服务框架 数据采集(拟增加部分) 数据存储和管理 数据处理与分析
大数据软件 VMwareWorkstation10或以上版本 ubuntukylin-16.04、CentOS7 JDK、eclipse Zookeeper Flume、Kafka、Sqoop HDFS、HBase MapReduce、Hive、Spark
✎ 1.1 大数据关键技术
大数据技术的不同层面:
数据采集、数据存储、处理、应用等多方面
大数据技术不同层面的技术产品
大数据计算模式
解决问题
代表产品
批处理计算 流计算
图计算 查询分析计算
针对大规模数据的批量处理 针对流数据的实时计算
针对大规模图结构数据的处理 大规模数据存储管理和查询分析
MapReduce、 Spark等 Storm 、 S4 、 Flume 、 Streams 、 Puma、 DStream、 SuperMario、银河 流数据处理平台等 Pregel 、 GraphX 、 Giraph 、 PowerGraph、 Hama、GoldenOrb等 Dremel、 Hive、 Cassandra、Impala等
• 通过本章的学习,希望大家能够对大数据平台技术Hadoop有一个 初步认识,为后续学习做好铺垫。
相关主题