hadoop简介讲解
大数据课程
深入浅出hadoop1
讲师:李希沅 时间:9:30~12:30 14:00~17:00
大数据课程
课程目标
Hadoop项目简介 Hadoop伪分布搭建 HDFS架构(重点) HDFS shell操作 MapReudce原理(重点)
大数据课程
Hadoop工程师招聘
大数据课程
课程答疑
Mapreduce原理
MapReduce是一种编程模型,用于大规模数据集的并行计算。
reduce
大数据课程
Mapreduce原理
主从结构 主节点,只有一个: JobTracker 从节点,有很多个: TaskTrackers JobTracker负责: 接收客户提交的计算任务 把计算任务分给TaskTrackers执行 监控TaskTracker的执行情况 TaskTrackers负责: 执行JobTracker分配的计算任务
大数据课程
Hadoop生产环境中的分布
大数据课程
Hadoop1伪分布搭建
关闭防火墙 修改ip 修改hostname 设置ssh自动登录 安装jdk 安装hadoop (帮助大家整理笔记) Hadoop有三种运行模式:单机(没意义)、伪分布、完全分布模式
大数据课程
从宏观的层面分为:hadoop1和hadoop2
大数据课程
Hadoop的思想之源
Hadoop的思想之源:Google
面对的数据和计算难题: 1:大量的网页怎么存储
2:搜索算法
带给我们的关键技术和思想 GFS
Map-Reduce
Bigtable
大数据课程
Hadoop的核心
HDFS操作
-help [cmd]//显示命令的帮助信息 -ls(r) <path>//显示当前目录下所有文件 -du(s) <path>//显示目录中所有文件大小
-count[-q] <path>//显示目录中文件数量
-mv <src> <dst>//移动多个文件到目标目录 -cp <src> <dst>//复制多个文件到目标目录 -rm(r)//删除文件(夹) -put <localsrc> <dst>//本地文件复制到hdfs
HDFS架构
主从结构 主节点,只有一个: namenode 从节点,有很多个: datanodes namenode负责: 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件 文件被分成block存储在磁盘上
HDFS: Hadoop Distributed File System 分布式文件系统
MapReduce:并行计算框架
大数据课程
Log.txt
HDFS架构
在Hadoop中,一个文件被划分成大小固定的多个文件块,分布的存储在集群中的 节点中(默认64M)
大数据课程
HDFS架构
冗余冗余
同一个文件块在不同的节点中有多个副本
1:学习hadoop需要什么基础? 2:现在hadoop市场是什么样? 3:学习hadoop的难度? 4:从本课程能学到什么?
大数据课程
适合大数据的分布式存储与计算平台 作者:Doug Cutting Hadoop的发音是 [hæ du:p] 受Google三篇论文的启发
Hadoop是什么?
Mapreduce原理
问题: 求出以下数组当中最大的数 1,3,23,3,4,18,2,8,10,16,7,5 int Max(int a[]) { int m=0; for(int i=0; i<a.length(); i++) if(m<a[i]) m=a[i]; return m; }
大数据课程
大数据课程
HDFS架构
思考如何管理 /home/hdfs/a.txt.part1,3,(dn1,dn2,dn3) /home/hdfs/a.txt.part2,3,(dn2,dn3,dn4) /home/hdfs/a.txt.part3,3,(dn6,dn11,dn28)
大数据课程
-copyFromLocal//同put
-moveFromLocal//从本地文件移动到hdfs -get [-ignoreCrc] <src> <localdst>//复制文件到本地,可以忽略crc校验 -getmerge <src> <localdst>//将源目录中的所有文件排序合并到一个文件中 -cat <src>//在终端显示文件内容 -text <src>//在终端显示文件内容 -copyToLocal [-ignoreCrc] <src> <localdst>//复制到本地 -moveToLocal <src> <localdst> -mkdir <path>//创建文件夹 -touchz <path>//创建一个空文件
hadoop名字的来源:这个名字不是一个缩写,它是一个虚构的名字。该项目的创建 者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一头吃饱了的棕黄 色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且 不会被用于别处。
大数据课程
Hadoop版本
Apache 官方版本(本课程使用的是第一代的hadoop) Cloudera 使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些 patch。推荐使用。 Yahoo Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在 继续发布,而是集中在Apache的版本上。
为保证数据安全,文件会有多个副本
大数据课程
副本存放策略
第一个:在本地机器的hdfs目录下存储一个block 第二个:在另外一个机架的某个datanode上存储一个block 第三个在该机器的同一个rack下的某台机器上存储最后一个block 更多:如果还有随机
大数据课程