当前位置：文档之家› 环视Hadoop查究分布式文件系统HDFS

环视Hadoop查究分布式文件系统HDFS

课题：项目2 环视Hadoop 第2部分查究分布式文件系统HDFS课次：第3次教学目标及要求：
任务1 探究HDFS工作机制（掌握）
任务2 里清HDFS的前提和目标（理解）
任务3 深挖HDFS核心机制（掌握）
任务4 操作HDFS（掌握）
教学重点：
任务1 探究HDFS工作机制（掌握）
任务2 里清HDFS的前提和目标（理解）
任务3 深挖HDFS核心机制（掌握）
任务4 操作HDFS（掌握）
教学难点：
任务2 里清HDFS的前提和目标（理解）
思政主题：
旁批栏：
教学步骤及内容：
1.课程引入
算数引入：一块硬盘存储速度为100Mbps那么1G的数据需要多久时
间？那么1TB、1PB呢？
1PB的数据需要在很短时间内存储应该怎么办？
2.本次课学习内容、重难点及学习要求介绍
（1）任务1 探究HDFS工作机制（掌握）
（2）任务2 里清HDFS的前提和目标（理解）
（3）任务3 深挖HDFS核心机制（掌握）
（4）任务4 操作HDFS（掌握）
3.本次课的教学内容
任务1 探究HDFS工作机制（掌握）
（1）HDFS的概念
我们先来学习Hadoop分布式文件系统概述，HDFS是Hadoop应用用
到的一个最主要的分布式存储系统。

一个HDFS集群主要由一个NameNode
和很多个DataNode组成：NameNode管理文件系统的元数据，而DataNode 存储了实际的数据。

基本上，客户端联系NameNode以获取文件的元数据或修饰属性，而真正的文件I/O操作是直接和DataNode进行交互的。

接下来学习一些特性，下面列出了一些多数用户都比较感兴趣的重要特性：
1.Hadoop（包括HDFS）非常适合在商用硬件（commodity hardware）上做分布式存储和计算，因为它不仅具有容错性和可扩展性，而且非常易于扩展。

Map-Reduce框架以其在大型分布式系统应用上的简单性和可用性而著称，这个框架已经被集成进Hadoop中。

2.HDFS的可配置性极高，同时，它的默认配置能够满足很多的安装环境。

多数情况下，这些参数只在非常大规模的集群环境下才需要调整。

3.用Java语言开发，支持所有的主流平台。

4.支持类Shell命令，可直接和HDFS进行交互。

Node和DataNode有内置的Web服务器，方便用户检查集群的当前状态。

6.新特性和改进会定期加入HDFS的实现中。

下面列出的是HDFS中常用特性的一部分：
1.文件权限和授权。

2.机架感知（Rack awareness）
3.安全模式
4.fsck
5.Rebalancer
6. 升级和回滚
7.Secondary NameNode
（2）HDFS的组成部分
理解下HDFS中的几个组成：
块（Block）：物理磁盘中有块（Block）的概念，Block是物理磁盘操作的最小单元，一般为512 Byte，物理磁盘的读写操作都是以Block为最小单元。

文件系统是在物理磁盘上抽象的一层概念，文件系统的Block是物理磁盘Block的整数倍，通常情况下是几KB。

Hadoop提供的df、fsck这类运维工具都是在文件系统的Block级别上进行操作。

HDFS也是按照块来进行读写操作的，但是HDFS的Block要比一般文件系统的Block大得多，默认为128M。

HDFS的文件被拆分成block-sized 的chunk，chunk作为独立单元存储。

比Block小的文件不会占用整个Block，只会占据实际大小。

例如，如果一个文件大小为1M，则在HDFS中只会占用1M的空间，而不是128M。

（1）那么为什么HDFS的Block这么大呢？。

e商务文档

环视Hadoop查究分布式文件系统HDFS

相关文档推荐：