大数据课程:基础阶段:L i n u x、D o c k e r、K V M、M y S Q L基础、O r a c l e基础、M o n g o D B、r e d i s。
h a d o o p m a p r e d u c e h d f s y a r n:h a d o o p:H a d o o p概念、版本、历史,H D F S工作原理,Y A R N介绍及组件介绍。
大数据存储阶段:h b a s e、h i v e、s q o o p。
大数据架构设计阶段:F l u m e分布式、Z o o k e e p e r、K a f k a。
大数据实时计算阶段:M a h o u t、S p a r k、s t o r m。
大数据数据采集阶段:P y t h o n、S c a l a。
大数据商业实战阶段:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。
大数据之L i n u x+大数据开发篇25353大数据之数据挖掘\分析&机器学习篇大数据之运维、云计算平台篇大数据之P B级别性能优化篇大数据之J a v a企业级核心技术篇课程一、大数据运维之L i n u x基础本部分是基础课程,帮大家进入大数据领域打好L i n u x基础,以便更好地学习H a d o o p,h b a s e,N o S Q L,S p a r k,S t o r m,d o c k e r,o p e n s t a c k 等众多课程。
因为企业中的项目基本上都是使用L i n u x环境下搭建或部署的。
1)L i n u x系统概述2)系统安装及相关配置3)L i n u x网络基础4)O p e n S S H实现网络安全连接5)v i文本编辑器6)用户和用户组管理7)磁盘管理8)L i n u x文件和目录管理9)L i n u x终端常用命令10)l i n u x系统监测与维护课程二、大数据开发核心技术-H a d o o p 2.x从入门到精通本课程是整套大数据课程的基石:其一,分布式文件系统H D F S用于存储海量数据,无论是H i v e、H B a s e或者S p a r k数据存储在其上面;其二是分布式资源管理框架Y A R N,是H a d o o p云操作系统(也称数据系统),管理集群资源和分布式数据处理框架M a p R e d u c e、S p a r k应用的资源调度与监控;分布式并行计算框架M a p R e d u c e目前是海量数据并行处理的一个最常用的框架。
H a d o o p2.x的编译、环境搭建、H D F S S h e l l使用,Y A R N集群资源管理与任务监控,M a p R e d u c e编程,分布式集群的部署管理(包括高可用性H A)必须要掌握的。
2. 2.1)大数据应用发展、前景2)H a d o o p 2.x概述及生态系统3)H a d o o p 2.x环境搭建与测试1)H D F S文件系统的架构、功能、设计2)H D F S J a v a A P I使用3)Y A R N架构、集群管理、应用监控4)M a p R e d u c e编程模型、S h u f f l e过程、编程调优2.1)分布式部署H a d o o p 2.x 2)分布式协作服务框架Z o o k e e p e r3)H D F S H A架构、配置、测试4)H D F S 2.x中高级特性5)Y A R N H A架构、配置6)H a d o o p主要发行版本(C D H、H D P、A p a c h e)1)以【北风网用户浏览日志】数据进行实际的分析2)原数据采集3)数据的预处理(E T L)4)数据的分析处理(M a p R e d u c e)课程三、大数据开发核心技术-大数据仓库H i v e精讲h i v e是基于H a d o o p的一个数据仓库工具,可以将结构化的数据文件映射为一数据库表,并提供简单的s q l查询功能,可以将s q l语句转换为M a p R e d u c e任务进行运行。
其优点是学习成本低,可以通类S Q L语句快速实现简单的M a p R e d u c e统计,不必开发专门的M a p R e d u c e应用,十分适合数据仓库的统计分析。
1)H i v e功能、体系结构、使用场景2)H i v e环境搭建、初级使用3)H i v e原数据配置、常见交互方式1)H i v e中的部表、外部表、分区表2)H i v e数据迁移3)H i v e常见查询(s e l e c t、w h e r e、d i s t i n c t、j o i n、g r o u p b y)4)H i v e置函数和U D F编程1)H i v e数据的存储和压缩2)H i v e常见优化(数据倾斜、压缩等)1)依据业务设计表2)数据清洗、导入(E T L)3)使用H i v e Q L,统计常见的指标课程四、大数据协作框架-S q o o p/F l u m e/O o z i e精讲S q o o p是一款开源的工具,主要用于在H a d o o p(H i v e)与传统的数据库(m y s q l、p o s t g r e s q l...)间进行数据的传递,可以将一个关系型数据库(例如:M y S Q L,O r a c l e ,P o s t g r e s等)中的数据导进到关系型数据库中。
S q o o p项目开始于2009年,最早是作为H a d o o p的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,S q o o p独立成为一个A p a c h e项目。
1)S q o o p功能、使用原则2)将R D B M S数据导入H i v e 表中(全量、增量)3)将H D F S上文件导出到R D B M S表中1)F l u m e设计架构、原理(三大组件)2)F l u m e初步使用,实时采集数据3)如何使用F l u m e监控文件夹数据,实时采集录入H D F S中4)任务调度框架O o z i e1)使用O o z i e调度M a p R e d u c e J o b和H i v e Q L2)定时调度任务使用课程五、大数据W e b开发框架-大数据W E B工具H u e精讲H u e是一个开源的A p a c h e H a d o o p U I系统,最早是由C l o u d e r a D e s k t o p演化而来,由C l o u d e r a贡献给开源社区,它是基于P y t h o n W e b框架D j a n g o实现的。
通过使用H u e我们可以在浏览器端的W e b控制台上与H a d o o p集群进行交互来分析处理数据,例如操作H D F S上的数据,运行M a p R e d u c e J o b等等。
1)H u e架构、功能、编译2)H u e集成H D F S3)H u e集成M a p R e d u c e 4)H u e集成H i v e、D a t a B a s e 5)H u e集成O o z i e课程六、大数据核心开发技术-分布式数据库H B a s e从入门到精通H B a s e是一个分布式的、面向列的开源数据库,该技术来源于F a yC h a n g所撰写的G o o g l e论文“B i g t a b l e:一个结构化数据的分布式存储系统”。
H B a s e在H a d o o p之上提供了类似于B i g t a b l e的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用H B a s e技术可在廉价P C S e r v e r上搭建起大规模结构化存储集群1)H B a s e是什么、发展、与R D B M S相比优势、企业使用2)H B a s e S c h e m a、表的设计3)H B a s e环境搭建、s h e l l 初步使用(C R U D等)1)H B a s e数据存储模型2)H B a s e J a v a A P I使用(C R U D、S C A N等)3)H B a s e架构深入剖析4)H B a s e与M a p R e d u c e集成、数据导入导出1)如何设计表、表的预分区(依据具体业务分析讲解)2)H B a s e表的常见属性设置(结合企业实际)3)H B a s e A d m i n操作(J a v a A P I、常见命令)1)依据需求设计表、创建表、预分区2)进行业务查询分析3)对于密集型读和密集型写进行H B a s e参数调优课程七、S p a r k技术实战之基础篇-S c a l a语言从入门到精通为什么要学习S c a l a?源于S p a r k的流行,S p a r k是当前最流行的开源大数据存计算框架,采用S c a l a语言实现,各大公司都在使用S p a r k:I B M宣布承诺大力推进A p a c h e S p a r k项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。
这一承诺的核心是将S p a r k嵌入I B M业领先的分析和商务平台,S c a l a具有数据处理的天然优势,S c a l a是未来大数据处理的主流语言1)-S p a r k的前世今生2)-课程介绍、特色与价值3)-S c a l a编程详解:基础语法4)-S c a l a编程详解:条件控制与循环11)-S c a l a编程详解:M a p 与T u p l e12)-S c a l a编程详解:面向对象编程之类13)-S c a l a编程详解:面向对象编程之对象14)-S c a l a编程详解:面向5)-S c a l a编程详解:函数入门6)-S c a l a编程详解:函数入门之默认参数和带名参数7)-S c a l a编程详解:函数入门之变长参数8)-S c a l a编程详解:函数入门之过程、l a z y值和异常9)-S c a l a编程详解:数组操作之A r r a y、A r r a y B u f f e r 以及遍历数组10)-S c a l a编程详解:数组操作之数组转换对象编程之继承15)-S c a l a编程详解:面向对象编程之T r a i t16)-S c a l a编程详解:函数式编程17)-S c a l a编程详解:函数式编程之集合操作18)-S c a l a编程详解:模式匹配19)-S c a l a编程详解:类型参数20)-S c a l a编程详解:隐式转换与隐式参数21)-S c a l a编程详解:A c t o r 入门课程八、大数据核心开发技术-存计算框架S p a r k精讲S p a r k是U C B e r k e l e y A M P l a b所开源的类H a d o o p M a p R e d u c e的通用并行框架,S p a r k,拥有H a d o o p M a p R e d u c e所具有的优点。