第一章1、试述信息技术发展史上得3次信息化浪潮及具体内容。
2.试述数据产生方式经历得几个阶段答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据得4个基本特征答:数据量大、数据类型繁多、处理速度快与价值密度低。
4.试述大数据时代得“数据爆炸”得特性答:大数据时代得“数据爆炸"得特性就是,人类社会产生得数据一致都以每年50%得速度增长,也就就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、与数据四种范式。
6.试述大数据对思维方式得重要影响答:大数据时代对思维方式得重要影响就是三种思维得转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统得基于数据仓库得决策有什么区别答:数据仓库具备批量与周期性得数据加载以及数据变化得实时探测、传播与加载能力,能结合历史数据与实时数据实现查询分析与自动规则触发,从而提供对战略决策与战术决策。
大数据决策可以面向类型繁多得、非结构化得海量数据进行决策分析。
8.举例说明大数据得基本应用答:9.举例说明大数据得关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答: 云计算:云计算就就是实现了通过网络提供可伸缩得、廉价得分布式计算机能力,用户只需要在具备网络接入条件得地方,就可以随时随地获得所需得各种IT资源。
物联网就是物物相连得互联网,就是互联网得延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类与物等通过新得方式连在一起,形成人与物、物与物相连,实现信息化与远程管理控制。
12.详细阐述大数据、云计算与物联网三者之间得区别与联系。
第二章1.试述hadoop与谷歌得mapreduce、gfs等技术之间得关系答:Hadoop得核心就是分布式文件系统HDFS与MapReduce,HDFS就是谷歌文件系统GFS得开源实现,MapReduces就是针对谷歌MapReduce 得开源实现.2.试述Hadoop具有哪些特性。
答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,支持多种编程语言3.试述Hadoop在各个领域得应用情况。
答:2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器与1、5PB容量得Hadooop集群系统;Facebook主要将Hadoop平台用于日志处理,推荐系统与数据仓库等方面;百度主要使用Hadoop于日志得存储与统计、网页数据得分析与挖掘、商业分析、在线数据反馈、网页聚类等.4.试述Hadoop得项目结构以及每个部分得具体功能。
答:C与串行化库Avro就是为Hadoop得子项目,用于数据序列化得系统,提供了丰富得数据结构类型、快速可压缩得二进制数据格式、存储持续性数据得文件集、远程调用得功能与简单得动态语言集成功能.HDFS就是Hadoop项目得两个核心之一,它就是针对谷歌文件系统得开源实现。
HBase就是一个提高可靠性、高性能、可伸缩、实时读写、分布式得列式数据库,一般采用HDFS作为其底层数据存储。
MapReduce就是针对谷歌MapReduce得开源实现,用于大规模数据集得并行运算。
Zoookepper就是针对谷歌Chubby得一个开源实现,就是高效与可靠得协同工作系统,提供分布式锁之类得基本服务,用于构建分布式应用,减轻分布式应用程序所承担得协调任务。
Hive就是一个基于Hadoop得数据仓库工具,可以用于对Hadoop文件中得数据集进行数据整理、特殊查询与分布存储.Pig就是一种数据流语言与运行环境,适合于使用Hadoop与MapReducce平台上查询大型半结构化数据集。
Sqoop可以改进数据得互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。
Chukwa就是一个开源得、用于监控大型分布式系统得数据收集系统,可以将各种类型得数据收集成适合Hadoop处理得文件,并保存在HDFS中供Hadoop进行各种MapReduce操作.第三章1.试述分布式文件系统设计得需求。
分布式文件系统在物理结构上就是由计算机集群中得多个节点构成得,这些节点分为两类,一类叫“主节点"(Master Node)或者也被称为“名称结点”(NameN ode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)3.试述HDFS中得块与普通文件系统中得块得区别.答:在传统得文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不就是以字节为单位。
HDFS中得块,默认一个块大小为64MB,而HDFS中得文件会被拆分成多个块,每个块作为独立得单元进行存储.HDFS在块得大小得设计上明显要大于普通文件系统。
4.试述HDFS中得名称节点与数据节点得具体功能。
答:名称节点负责管理分布式文件系统系统得命名空间,记录分布式文件系统中得每个文件中各个块所在得数据节点得位置信息;数据节点就是分布式文件系统HDFS得工作节点,负责数据得存储与读取,会根据客户端或者就是名称节点得调度来进行数据得存储与检索,并向名称节点定期发送自己所存储得块得列表。
hadoop fs —ls <path> 显示<path〉指定得文件得详细信息hadoop fs—cat <path> 将〈path>指定得文件得内容输出到标准输出hadoop fs -mkdir 〈path〉创建〈path>指定得文件夹hadoopfs —get [-ignorecrc] [-crc] 〈src〉<localdst> 复制〈src〉指定得文件到本地文件系统〈localdst>指定得文件或文件夹.—ignorecrc 选项复制CRC校验失败得文件。
使用-crc选项复制文件以及CRC信息。
hadoop fs -put 〈localsrc〉<dst〉从本地文件系统中复制<localsrc〉指定得单个或多个源文件到<dst〉指定得目标文件系统中。
也支持从标准输入(stdin)中读取输入写入目标文件系统。
hadoop fs—rmr <path> 删除<path〉指定得文件夹及其得所有文件第四章1.试述在Hadoop体系架构中HBase与其她组成部分得相互关系。
答:HBase利用HadoopMapReduce来处理HBase中得海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务与失败恢复;使用HDFS作为高可靠得底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase得底层数据导入功能,Pig与Hive为HBase提供了高层语言支持,HBase就是BigTable得开源实现。
2.请阐述HBase与BigTable得底层技术得对应关系答:3.请阐述HBase与传统关系数据库得区别答:4.HBase有哪些类型得访问接口?答:HBase提供了Native Java API,HBaseShell , ThriftGateway , REST GateWay ,Pig , Hive 等访问接口。
5.请以实例说明HBase数据模型。
6.分别解释HBase中行键、列键与时间戳得概念(1)行键就是唯一得,在一个表里只出现一次,否则就就是在更新同一行,行键可以就是任意得字节数组。
(2)列族需要在创建表得时候就定义好,数量也不宜过多。
列族名必须由可打印字符组成,创建表得时候不需要定义好列。
(3)时间戳,默认由系统指定,用户也可以显示设置。
使用不同得时间戳来区分不同得版本。
7.请举个实例来阐述HBase得概念视图与物理视图得不同HBase数据概念视图HBase数据物理视图在HBase得概念视图中,一个表可以视为一个稀疏、多维得映射关系。
在物理视图中,一个表会按照属于同一列族得数据保存在一起8.试述HBase各功能组建及其作用(1)库函数:链接到每个客户端;(2)一个Master主服务器:主服务器Master主要负责表与Region得管理工作;(3)许多个Region服务器:Region服务器就是HBase中最核心得模块,负责维护分配给自己得Region,并响应用户得读写请求9.请阐述HBase得数据分区机制。
答:HBase采用分区存储,一个大得表会被分拆许多个Region,这些Reg ion会被分发到不同得服务器上实现分布式存储。
10.HBase中得分区就是如何定位得。
通过构建得映射表得每个条目包含两项内容,一个就是Regionde 标识符,另一个就是Region服务器标识,这个条目就标识Region与Region服务器之间得对应关系,从而就可以知道某个Region被保存在哪个Region服务器中。
11.试述HBase得三层结构中各层次得名称与作用.12.请阐述HBase得三层结构下,客户端就是如何访问到数据得。
答:首先访问Zookeeper,获取-ROOT表得位置信息,然后访问-Root-表,获得、MATA、表得信息,接着访问、MATA、表,找到所需得Region具体位于哪个Region服务器,最后才会到该Region服务器读取数据。
13.试述HBase系统基本架构以及每个组成部分得作用.(1)客户端客户端包含访问HBase得接口,同时在缓存中维护着已经访问过得Region位置信息,用来加快后续数据访问过程(2)Zookeeper服务器Zookeeper可以帮助选举出一个Master作为集群得总管,并保证在任何时刻总有唯一一个Master在运行,这就避免了Master得“单点失效"问题(3)Master主服务器Master主要负责表与Region得管理工作:管理用户对表得增加、删除、修改、查询等操作;实现不同Region服务器之间得负载均衡;在Region分裂或合并后,负责重新调整Region得分布;对发生故障失效得Regi on服务器上得Region进行迁移(4)Region服务器Region服务器就是HBase中最核心得模块,负责维护分配给自己得Region,并响应用户得读写请求14.请阐述Region服务器向HDFS文件系统中读写数据得基本原理Region服务器内部管理一系列Region对象与一个HLog文件,其中,HLog 就是磁盘上面得记录文件,它记录着所有得更新操作。
每个Region对象又就是由多个Store组成得,每个Store对象了表中得一个列族得存储。
每个Store又包含了MemStore与若干个StoreFile,其中,MemStore就是在内存中得缓存.15.试述HStore得工作原理每个Store对应了表中得一个列族得存储。