当前位置:
文档之家› 基于Hadoop与Spark的大数据开发实战
基于Hadoop与Spark的大数据开发实战
2020
基于Hadoop与Spark的 大数据开发实战
演讲人 2025-11-11
关于引用作品的版权声明
关于引用作品的版权声 明
1 Hadoop初体验
1 Hadoop初体验
0 1
任务1 初识大
数据
0 2
任务2 初识
Hadoop
0 3
任务3 安装
Hadoop平台
0 4
本章总结
0 5
本章练习
1 Hadoop初体验
3 Hadoop分布式计算框架
3 Hadoop分布式计算框架
任务1 认识Map Reduce 编程模型
任务3 Map Reduce高级 应用
本章练习
任务2 Map Reduce应用 开发
本章总结
3.1.1 Map Reduce基础
3.1.3 Map Reduce词频统 计编程实例
3.1.2 Map Reduce编程模 型
本章练习
8.1.1 Sqoop简介
8.1.3 使用Sqoop导出 HDFS数据到My SQL
8.1.5 Sqoop Job
8.1.2 使用Sqoop导入My SQL数据到HDFS
8.1.4 使用Sqoop导入My SQL数据到Hive
8 大数据离线处理辅助系统
任务1 认识并使用数据迁移框架Sqoop
1.1.1 大数据基本 概念
A
1.1.2 大数据带来 的挑战
B
任务1 初识大数据
1 Hadoop初体验
1.2.1 Hadoop概述
A
1.2.2 Hadoop生态 圈
B
1.2.3 Hadoop应用 案例
C
任务2 初识Hadoop
1 Hadoop初体验
1.3.1 安装虚拟机
A
1.3.2 安装Linux系 统
2.3.1 HDFS读 写流程
2.3.3 HDFS负 载均衡
2.3.2 HDFS副 本机制
2.3.4 HDFS机 架感知
任务3 HDFS运行原理
2.4.1 Hadoop序列化机制
2.4.3 Map File
2.4.2 Sequence File
2 Hadoop分布式文件系统
任务4 HDFS高级知识
B
1.3.3 安装Hadoop 伪分布式环境
C
任务3 安装Hadoop平台
2 Hadoop分布式文件系统
2 Hadoop分布式文件系统
任务1
A
HDFS入
门
任务4
D
HDFS高
级知识
任务2
B
HDFS基
本操作
本章
E
总结
任务3
C
HDFS运
行原理
本章
F
练习
2 Hadoop 分布式文件 系统
任务1 HDFS入门
03
11.1.3 Spark SQL简介
11.2.1 Spark SQL编程入口 11.2.3 Data Frame编程实例
11 Spark SQL
任务2 Spark SQL编程基础
11.2.2 Data Frame基础
11.3.1 Spark SQL操作外部 数据源
11.3.3 Spark SQL调优
5.2.1 HBase Shell简介
A
5.2.2 HBase Shell的使用
B
5 Hadoop 分布式数据 库
任务3 HBase编程
5.3.1 开发HBase 应用程序
A
5.3.2 HBase数据 存储管理API
B
6 Hadoop综合实战——音乐 排行榜
6 Hadoop综合实战——音乐排行榜
1
任务1 Map Reduce与HBase 的集成
2
任务2 HBase Map Reduce API
3
任务3 实现音乐排行榜
4
本章总结
5
本章练习
6 Hadoop综合实 战——音乐排行榜
任务1 Map Reduce与 HBase的集成
A
6.1.1 Map Reduce与HBase
的集成环境
6.1.2 批量数据导 入(Bulk
Loading)
B
6 Hadoop 综合实 战——音 乐排行榜
任务2 HBase Map Reduce API
6.2.1 HBase Map Reduce API 简介
6.2.2 Table Mapper的使用
6.2.3 Table Reducer的使用
12.2.2 Spark Streaming编程实
例
B
12 Spark Streami ng
任务3 Spark Streaming高级应用
壹
12.3.1 使用Spark Streaming整合Flume
贰
12.3.2 使用Spark Streaming整合Kafka
叁
12.3.3 Spark Streaming优化策略
11 Spark SQL
任务3 Spark SQL编程进阶
11.3.2 Spark SQL函数
12 Spark Streaming
12 Spark Streaming
任务1 流处理框架及 Spark Streaming
任务3 Spark Streaming 高级应用
本章练习
任务2 使用Spark Streaming编程
4.2.4 HDFS REST API
4 Hadoop新特性
4.3.1 Resource Manager自动重启
A
4.3.2 Resource Manager高可用机制
B
任务3 了解YARN新特性
5 Hadoop分布式数据库
5 Hadoop分布式数据库
任务1 认识 HBase
A
任务2 HBase Shell操作
E
练习
7.1.1 认识Hive
7.1.3 Hive与Hadoop
7.1.5 Hive数据存储模型
7 数据仓库Hive
任务1 Hive基础
7.1.2 Hive架构设计
7.1.4 Hive与传统关系型数 据库
7.1.6 Hive部署
7 数据仓库Hive
任务2 掌握Hive操作
7.2.1 Hive DDL
E
9 Spark基础
任务2 Scala基础
9 Spark基础
9.3.1 下载Spark 源码
A
9.3.2 编译Spark 源码
B
任务3 编译Spark
9 Spark基础
9.4.1 Spark环境 部署
A
9.4.2 sparkshell
B
任务4 Spark初体验
10 Spark Core
10 Spark Core
任务1 Spark RDD
任务2 RDD 高级应用
任务3 基于RDD的 Spark应用程序开
发
本章总结
本章练习
10.1.1 RDD介 绍
A
10.1.2 RDD的 创建
B
10.1.3 RDD的 转换算子
C
10.1.4 RDD的 动作算子
D
10.1.5 RDD的 依赖关系
E
10 Spark Core
任务1 Spark RDD
附录
附录
感谢聆听
8 大数据离线处理辅助系统
8.2.1 Azkaba
n概述
8.2.2 Azkaban 环境部署
8.2.3 Azkaban 应用实例
任务2 使用Azkaban实现工作流 调度
9 Spark基础
9 Spark基础
任务1 A Spark入
门
任务4 D Spark初
体验
任务2
B
Scala基
础
本章
E
总结
任务3 编
C
译Spark
本章
F
练习
9 Spark基础
9.1.2 Spark 优势
1
2
3
9.1.1 Spark 简介
9.1.3 Spark 生态圈
任务1 Spark入门
9.2.1 Scala简介
A
9.2.2 Scala函数 定义
B
9.2.3 Scala面向 对象操作
C
9.2.4 Scala集合 的使用
D
9.2.5 Scala高阶 函数
10 Spark Core
10.2.2 共享 变量
1
2
3
10.2.1 RDD 缓存机制
10.2.3 Spark 架构设计
任务2 RDD高级应用
10 Spark Core
10.3.1 准备工作
A
10.3.2 词频计数实 例
B
10.3.3 年龄统计实 例
C
任务3 基于RDD的Spark应用 程序开发
任务3 Map Reduce高级应用
4 Hadoop新特性
4 Hadoop新特性
0 1
任务1 初识
YA R N
0 2
任务2 了解
HDFS新特性
0 3
任务3 了解
YA R N 新 特 性
0 4
本章总结
0 5
本章练习
4 Hadoop新特性
任务1 初识YARN
01
4.1.1 YA R N 产 生
背景
本章总结
12.1.1 流处理框架简介
12.1.2 Spark Streaming简 介
12 Spark Streaming
任务1 流处理框架及Spark Streaming