当前位置：文档之家› 分布式集群技术

分布式集群技术

分布式集群技术1、Linux的介绍：Linux的发展历史、Linux和Windows的对比和优势、Linux的常见版本；
2、Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程；
3、Linux的常用命令：常用命令的介绍、常用命令的使用和练习；
4、Linux编辑器：VI、VIM编辑器的介绍、常用快捷键；
5、Linux用户和组账户管理：用户的管理、组管理；
6、Linux系统文件权限管理：文件权限介绍、文件权限的操作；
7、Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作
8、Linux网络：Linux网络的介绍、Linux网络的配置和维护、iptables原理和操作
9、Shell编程：Shell介绍、Shell脚本的编写
10、Linux上常见软件的安装：安装JDK、安装Tomcat、安装Eclipse
11、集群负载均衡和高可靠：Haproxy、Keepalived
12、CentOS7部分新特性介绍和使用
13、综合案例：构建互联网高并发分布式服务器集群
Hadoop离线计
算1、Hadoop生态圈简介
2、Hadoop伪分布式环境搭建
3、Hadoop计算模型MapReduce例子说明
4、分布式文件系统HDFS：分布式文件系统HDFS简介、HDFS原理、HDFS上传下载数据过程和源码分析
5、分布式计算模型MapReduce：MapReduce算法原理、Shuffle过程和原理、MapReduce提交过程和源码分析、MapReduce执行过程和源码分析、MapReduce 本地debug和远程debug、MapReduce优化、MapReduce实战案例
6、分布式协调框架ZooKeeper：ZooKeepe基本概念和体系结构、ZooKeeper集群的安装、操作ZooKeeper、ZooKeeper编程API
7、Hadoop2.x集群搭建：Hadoop2.x集群结构体系介绍、Hadoop2.x集群搭建、NameNode的高可用性（HA）、HDFS Federation、ResourceManager 的高可用性（HA）、Hadoop集群常见问题和解决方法、Hadoop集群管理
8、分布式数据库Hbase：HBase定义、HBase与RDBMS的对比、数据模型、系统架构、HBase上的MapReduce、表的设计、集群的搭建过程讲解、集群的监控、集群的管理、HBase Shell以及演示、Java客户端以及代码演示
9、数据仓库Hive(使用sql进行计算的hadoop框架)：数据仓库基础知识、Hive定义、Hive体系结构简介、Hive集群、客户端简介、HiveQL定义、HiveQL与SQL 的比较、数据类型、外部表和分区表、表的操作与CLI客户端演示、数据导入与CLI 客户端演示、查询数据与CLI客户端演示、数据的连接与CLI客户端演示、用户自定义函数（UDF）的开发与演示
10、数据迁移工具Sqoop：配置Sqoop、使用Sqoop把数据从mysql导入到HDFS
中、使用Sqoop把数据从HDFS导出到mysql中
11、机器学习框架Mahout：机器学习的概念和使用场景、Mahout的安装与测试、Mahout的解析聚类算法、解析分类算法、协同过滤算法等常用算法
Storm实时计算1、Storm基础知识：Storm的基本概念、Storm的应用场景、Storm和Hadoop的对比；
2、Storm集群的安装：linux环境准备、zookeeper集群搭建、Storm集群搭建、Storm 配置文件配置项讲解、集群搭建常见问题解决；
3、Storm常用组件和编程API：Topology、 Spout、Bolt、Storm分组策略(stream groupings)、Storm项目maven环境搭建、使用Strom开发一个WordCount 例子、Storm程序本地模式debug、Storm程序远程debug、Storm事物处理、Storm 消息可靠性及容错原理；
4、Storm结合消息队列Kafka：消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API；
5、NoSQL数据库Redis：Redis的集群部署、Redis的Java编程接口、Storm整合Redis；
6、Storm Trident：Trident概念、Trident state 原理、Trident开发实例；
7、Storm DPRC：Storm DRPC(分布式远程调用)介绍、Storm DRPC实战讲解；
8、Storm和Hadoop 2.x的整合：Storm on Yarn；
大型实战项目一1、推荐系统基础及应用介绍
2、推荐系统的一般架构及流程
3、基于用户和基于商品的推荐模块
4、实时推荐模块的需求分析
5、实时推荐模块的的设计（流程设计、storm程序设计、数据存储设计）
6、实时模块开发
7、离线推荐模块的需求分析
8、基于mahout的离线推荐模块设计（数据格式、mahout简要介绍、输出导出）
9、离线模块开发（Hive准备数据、调用mahout API、结果数据导出）
Scala函数式编
程1、scala基础语法
2、scala面向对象
3、scala数组、集合和元组
4、scala函数式编程
5、scala高阶函数
6、scala模式匹配和样例类
7、scala类型参数（泛型类、视图界定、上下文界定、型变、逆变）
8、scala隐式转换和隐式参数
9、scala高并发编程（原生actor和akka框架）
10、scala编程综合实战（基于akka实现RPC通信）
Spark内存计算1、Spark入门（spark与hadoop的比较、Spark实现单词计数）
2、Spark环境搭建
3、Spark概念和编程模型：RDD、transformation、action
4、Spark编程案例（游戏日志分析1）
5、Spark原理：任务调度
6、Spark原理：DAGScheduler、TaskScheduler
7、远程调试Spark程序
8、配置Spark源码阅读环境
9、Spark内核源码分析1
10、Spark内核源码分析2
11、Spark编程案例（游戏日志分析2）
12、Spark内核源码分析3
13、Spark内核源码分析4
14、Spark编程案例（游戏日志分析3）
15、Spark内核源码分析5
16、Spark内核源码分析6
17、Spark SQL简介和架构分析
18、Hive on Spark整合
19、Spark SQL简介和架构分析
20、Spark Streaming入门
21、Spark Streaming整合kafka
22、Spark Streaming编程实战
Spark机器学习1、Spark MLlib简介和使用
2、Spark MLlib常用算法（聚类和分类）
3、Spark MLlib推荐算法
4、Spark MLlib算法应用实例
5、GraphX图计算
大型实战项目二基于Spark的数据挖掘实战项目。

e商务文档

分布式集群技术

相关文档推荐：