当前位置:文档之家› 环视Hadoop查究分布式文件系统HDFS

环视Hadoop查究分布式文件系统HDFS

课题:项目2 环视Hadoop 第2部分查究分布式文件系统HDFS课次:第3次教学目标及要求:
任务1 探究HDFS工作机制(掌握)
任务2 里清HDFS的前提和目标(理解)
任务3 深挖HDFS核心机制(掌握)
任务4 操作HDFS(掌握)
教学重点:
任务1 探究HDFS工作机制(掌握)
任务2 里清HDFS的前提和目标(理解)
任务3 深挖HDFS核心机制(掌握)
任务4 操作HDFS(掌握)
教学难点:
任务2 里清HDFS的前提和目标(理解)
思政主题:
旁批栏:
教学步骤及内容:
1.课程引入
算数引入:一块硬盘存储速度为100Mbps那么1G的数据需要多久时
间?那么1TB、1PB呢?
1PB的数据需要在很短时间内存储应该怎么办?
2.本次课学习内容、重难点及学习要求介绍
(1)任务1 探究HDFS工作机制(掌握)
(2)任务2 里清HDFS的前提和目标(理解)
(3)任务3 深挖HDFS核心机制(掌握)
(4)任务4 操作HDFS(掌握)
3.本次课的教学内容
任务1 探究HDFS工作机制(掌握)
(1)HDFS的概念
我们先来学习Hadoop分布式文件系统概述,HDFS是Hadoop应用用
到的一个最主要的分布式存储系统。

一个HDFS集群主要由一个NameNode
和很多个DataNode组成:NameNode管理文件系统的元数据,而DataNode 存储了实际的数据。

基本上,客户端联系NameNode以获取文件的元数据或修饰属性,而真正的文件I/O操作是直接和DataNode进行交互的。

接下来学习一些特性,下面列出了一些多数用户都比较感兴趣的重要特性:
1.Hadoop(包括HDFS)非常适合在商用硬件(commodity hardware)上做分布式存储和计算,因为它不仅具有容错性和可扩展性,而且非常易于扩展。

Map-Reduce框架以其在大型分布式系统应用上的简单性和可用性而著称,这个框架已经被集成进Hadoop中。

2.HDFS的可配置性极高,同时,它的默认配置能够满足很多的安装环境。

多数情况下,这些参数只在非常大规模的集群环境下才需要调整。

3.用Java语言开发,支持所有的主流平台。

4.支持类Shell命令,可直接和HDFS进行交互。

Node和DataNode有内置的Web服务器,方便用户检查集群的当前状态。

6.新特性和改进会定期加入HDFS的实现中。

下面列出的是HDFS中常用特性的一部分:
1.文件权限和授权。

2.机架感知(Rack awareness)
3.安全模式
4.fsck
5.Rebalancer
6. 升级和回滚
7.Secondary NameNode
(2)HDFS的组成部分
理解下HDFS中的几个组成:
块(Block):物理磁盘中有块(Block)的概念,Block是物理磁盘操作的最小单元,一般为512 Byte,物理磁盘的读写操作都是以Block为最小单元。

文件系统是在物理磁盘上抽象的一层概念,文件系统的Block是物理磁盘Block的整数倍,通常情况下是几KB。

Hadoop提供的df、fsck这类运维工具都是在文件系统的Block级别上进行操作。

HDFS也是按照块来进行读写操作的,但是HDFS的Block要比一般文件系统的Block大得多,默认为128M。

HDFS的文件被拆分成block-sized 的chunk,chunk作为独立单元存储。

比Block小的文件不会占用整个Block,只会占据实际大小。

例如,如果一个文件大小为1M,则在HDFS中只会占用1M的空间,而不是128M。

(1)那么为什么HDFS的Block这么大呢?。

相关主题