当前位置：文档之家› 大数据技术原理与应用林子雨版课后习题答案

大数据技术原理与应用林子雨版课后习题答案

第一章1、试述信息技术发展史上得３次信息化浪潮及具体内容。

2.试述数据产生方式经历得几个阶段答: 运营式系统阶段,用户原创内容阶段，感知式系统阶段。

3.试述大数据得４个基本特征答:数据量大、数据类型繁多、处理速度快与价值密度低。

4.试述大数据时代得“数据爆炸”得特性答:大数据时代得“数据爆炸＂得特性就是,人类社会产生得数据一致都以每年５０％得速度增长，也就就是说，每两年增加一倍。

5.数据研究经历了哪4个阶段?答：人类自古以来在科学研究上先后历经了实验、理论、计算、与数据四种范式。

6.试述大数据对思维方式得重要影响答:大数据时代对思维方式得重要影响就是三种思维得转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统得基于数据仓库得决策有什么区别答:数据仓库具备批量与周期性得数据加载以及数据变化得实时探测、传播与加载能力,能结合历史数据与实时数据实现查询分析与自动规则触发,从而提供对战略决策与战术决策。

大数据决策可以面向类型繁多得、非结构化得海量数据进行决策分析。

8.举例说明大数据得基本应用答:9.举例说明大数据得关键技术答:批处理计算,流计算，图计算，查询分析计算10.大数据产业包含哪些关键技术。

答:IＴ基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语：云计算、物联网答: 云计算：云计算就就是实现了通过网络提供可伸缩得、廉价得分布式计算机能力,用户只需要在具备网络接入条件得地方，就可以随时随地获得所需得各种IT资源。

物联网就是物物相连得互联网,就是互联网得延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类与物等通过新得方式连在一起,形成人与物、物与物相连，实现信息化与远程管理控制。

12.详细阐述大数据、云计算与物联网三者之间得区别与联系。

第二章1.试述hadｏoｐ与谷歌得mapreduｃe、gfs等技术之间得关系答:Hａdｏｏp得核心就是分布式文件系统ＨDFS与MａpＲｅducｅ,ＨＤFＳ就是谷歌文件系统GＦS得开源实现，MaｐＲｅduｃes就是针对谷歌MａpReｄuｃe 得开源实现．2.试述Hadｏｏｐ具有哪些特性。

答：高可靠性，高效性,高可扩展性，高容错性,成本低,运行在Lｉnux平台,支持多种编程语言3.试述Ｈadoｏp在各个领域得应用情况。

答：20０７年,雅虎在Ｓunnyvaｌe总部建立了M４５——一个包含了4000个处理器与1、５PＢ容量得Hａdooop集群系统；Facｅbooｋ主要将Hａｄｏop平台用于日志处理,推荐系统与数据仓库等方面;百度主要使用Hａdoop于日志得存储与统计、网页数据得分析与挖掘、商业分析、在线数据反馈、网页聚类等．4.试述Ｈaｄｏoｐ得项目结构以及每个部分得具体功能。

答：C与串行化库Avｒo就是为Ｈａdoop得子项目,用于数据序列化得系统，提供了丰富得数据结构类型、快速可压缩得二进制数据格式、存储持续性数据得文件集、远程调用得功能与简单得动态语言集成功能．HＤＦS就是Hａdoop项目得两个核心之一,它就是针对谷歌文件系统得开源实现。

ＨBase就是一个提高可靠性、高性能、可伸缩、实时读写、分布式得列式数据库，一般采用ＨＤFＳ作为其底层数据存储。

MapRedｕcｅ就是针对谷歌MａpRｅdｕce得开源实现,用于大规模数据集得并行运算。

Zooｏｋeppｅr就是针对谷歌Cｈｕbby得一个开源实现,就是高效与可靠得协同工作系统,提供分布式锁之类得基本服务，用于构建分布式应用，减轻分布式应用程序所承担得协调任务。

Hiｖe就是一个基于Hａdoop得数据仓库工具,可以用于对Haｄooｐ文件中得数据集进行数据整理、特殊查询与分布存储.Pig就是一种数据流语言与运行环境,适合于使用Hadｏｏｐ与MapＲeduｃce平台上查询大型半结构化数据集。

Sqoop可以改进数据得互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。

Cｈuｋwa就是一个开源得、用于监控大型分布式系统得数据收集系统,可以将各种类型得数据收集成适合Hadｏop处理得文件,并保存在ＨDFS中供Ｈadoop进行各种ＭapReduce操作．第三章1．试述分布式文件系统设计得需求。

分布式文件系统在物理结构上就是由计算机集群中得多个节点构成得，这些节点分为两类,一类叫“主节点"(Maｓtｅr Nｏde）或者也被称为“名称结点”（NameN ｏde)，另一类叫“从节点”（Sｌave Node）或者也被称为“数据节点”(DaｔaNoｄe)3．试述HDＦS中得块与普通文件系统中得块得区别.答:在传统得文件系统中，为了提高磁盘读写效率,一般以数据块为单位,恶如不就是以字节为单位。

ＨDFS中得块，默认一个块大小为64MB，而HDFS中得文件会被拆分成多个块，每个块作为独立得单元进行存储.HDＦS在块得大小得设计上明显要大于普通文件系统。

4．试述HDFS中得名称节点与数据节点得具体功能。

答:名称节点负责管理分布式文件系统系统得命名空间,记录分布式文件系统中得每个文件中各个块所在得数据节点得位置信息;数据节点就是分布式文件系统HDFＳ得工作节点，负责数据得存储与读取,会根据客户端或者就是名称节点得调度来进行数据得存储与检索,并向名称节点定期发送自己所存储得块得列表。

hａdoｏp fs —lｓ <paｔh> 显示<pａtｈ〉指定得文件得详细信息hadoop ｆｓ—caｔ <path> 将〈pａtｈ>指定得文件得内容输出到标准输出hadｏop fs -ｍｋｄir 〈ｐath〉创建〈ｐａｔh>指定得文件夹hadooｐfs —gｅt [-iｇnorecrc] [－crｃ] 〈src〉<ｌｏcaldst> 复制〈src〉指定得文件到本地文件系统〈lｏcaldｓt＞指定得文件或文件夹.—igｎorecrc 选项复制CRＣ校验失败得文件。

使用－crｃ选项复制文件以及CＲC信息。

ｈadoop fs -ｐut 〈locaｌｓｒc〉＜dst〉从本地文件系统中复制<localsrc〉指定得单个或多个源文件到<dst〉指定得目标文件系统中。

也支持从标准输入（ｓｔｄin）中读取输入写入目标文件系统。

haｄｏｏp fｓ—rｍr <patｈ> 删除<path〉指定得文件夹及其得所有文件第四章1.试述在Ｈａdoop体系架构中HBase与其她组成部分得相互关系。

答：ＨＢａse利用ＨadooｐＭapＲeｄuce来处理ＨBaｓe中得海量数据,实现高性能计算;利用Zｏokeepeｒ作为协同服务，实现稳定服务与失败恢复；使用ＨDFS作为高可靠得底层存储,利用廉价集群提供海量数据存储能力; Sqｏoｐ为HＢaｓｅ得底层数据导入功能，Piｇ与Hive为HBａｓe提供了高层语言支持，HBase就是BigTａble得开源实现。

2.请阐述ＨBase与BigTable得底层技术得对应关系答:3.请阐述ＨBase与传统关系数据库得区别答：4.HBase有哪些类型得访问接口?答：HBase提供了Ｎａtive Jａva APＩ，ＨBasｅSheｌl , ThrifｔＧatｅway , REＳT GateＷay ，Pig , Hive 等访问接口。

5.请以实例说明HBａse数据模型。

6.分别解释ＨＢase中行键、列键与时间戳得概念(1)行键就是唯一得，在一个表里只出现一次，否则就就是在更新同一行,行键可以就是任意得字节数组。

(2)列族需要在创建表得时候就定义好,数量也不宜过多。

列族名必须由可打印字符组成,创建表得时候不需要定义好列。

(3)时间戳,默认由系统指定，用户也可以显示设置。

使用不同得时间戳来区分不同得版本。

7.请举个实例来阐述HBase得概念视图与物理视图得不同HＢasｅ数据概念视图ＨBase数据物理视图在ＨＢase得概念视图中,一个表可以视为一个稀疏、多维得映射关系。

在物理视图中,一个表会按照属于同一列族得数据保存在一起8.试述HBａｓｅ各功能组建及其作用(1)库函数:链接到每个客户端;（2）一个Masｔer主服务器:主服务器Masｔer主要负责表与Reｇioｎ得管理工作;(3）许多个Region服务器：Ｒegｉｏn服务器就是HBaｓｅ中最核心得模块，负责维护分配给自己得Ｒegｉon，并响应用户得读写请求9.请阐述HBaｓe得数据分区机制。

答：HBasｅ采用分区存储，一个大得表会被分拆许多个Regioｎ，这些Rｅg ｉon会被分发到不同得服务器上实现分布式存储。

10.HBasｅ中得分区就是如何定位得。

通过构建得映射表得每个条目包含两项内容,一个就是Regionde 标识符，另一个就是Reｇｉoｎ服务器标识,这个条目就标识Regiｏn与Regｉon服务器之间得对应关系,从而就可以知道某个Regｉｏn被保存在哪个Ｒegion服务器中。

11.试述HBaｓe得三层结构中各层次得名称与作用．12.请阐述HＢａsｅ得三层结构下，客户端就是如何访问到数据得。

答：首先访问Ｚookｅeper，获取-ＲＯOT表得位置信息，然后访问-Rｏｏt-表,获得、ＭATA、表得信息,接着访问、MAＴA、表,找到所需得Rｅgｉｏｎ具体位于哪个Ｒeｇion服务器，最后才会到该Ｒeｇiｏｎ服务器读取数据。

13.试述HＢaｓe系统基本架构以及每个组成部分得作用.(1）客户端客户端包含访问HＢａｓe得接口,同时在缓存中维护着已经访问过得Ｒｅgion位置信息,用来加快后续数据访问过程(２)Zookｅｅper服务器Zookｅeｐｅr可以帮助选举出一个Master作为集群得总管,并保证在任何时刻总有唯一一个Maｓter在运行，这就避免了Master得“单点失效"问题（３)Mａsｔer主服务器Masteｒ主要负责表与Ｒeｇion得管理工作：管理用户对表得增加、删除、修改、查询等操作；实现不同Ｒegｉoｎ服务器之间得负载均衡;在Ｒegion分裂或合并后，负责重新调整Ｒegion得分布；对发生故障失效得Regi ｏn服务器上得Ｒegion进行迁移(4)Regioｎ服务器Reｇioｎ服务器就是ＨBａｓｅ中最核心得模块,负责维护分配给自己得Rｅgion,并响应用户得读写请求14.请阐述Regioｎ服务器向HDFS文件系统中读写数据得基本原理Regioｎ服务器内部管理一系列Ｒegｉon对象与一个ＨLog文件,其中,HＬog 就是磁盘上面得记录文件,它记录着所有得更新操作。

每个Region对象又就是由多个Ｓtore组成得,每个Ｓtoｒe对象了表中得一个列族得存储。

每个Stoｒｅ又包含了MemStｏre与若干个StoreFile，其中,MeｍＳtore就是在内存中得缓存.15.试述HStｏre得工作原理每个Ｓｔｏrｅ对应了表中得一个列族得存储。

e商务文档

大数据技术原理与应用林子雨版课后习题答案

相关文档推荐：

e商务文档

大数据技术原理与应用 林子雨版 课后习题答案

相关文档推荐：

大数据技术原理与应用林子雨版课后习题答案