林子雨大数据技术原理及应用课后题答案大数据第一章大数据概述课后题 (1)大数据第二章大数据处理架构Hadoop课后题 (5)大数据第三章Hadoop分布式文件系统课后题 (10)大数据第四章分布式数据库HBase课后题 (16)大数据第五章NoSQl数据库课后题 (22)大数据第六章云数据库课后作题 (28)大数据第七章MapReduce课后题 (34)大数据第八章流计算课后题 (41)大数据第九章图计算课后题 (50)大数据第十章数据可视化课后题 (53)大数据第一章课后题——大数据概述1.试述信息技术发展史上的3次信息化浪潮及其具体内容。
第一次信息化浪潮1980年前后个人计算机开始普及,计算机走入企业和千家万户。
代表企业:Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等。
第二次信息化浪潮1995年前后进入互联网时代。
代表企业:雅虎,谷歌阿里巴巴,百度,腾讯。
第三次信息浪潮2010年前后,云计算大数据,物联网快速发展,即将涌现一批新的市场标杆企业。
2.试述数据产生方式经历的几个阶段。
经历了三个阶段:运营式系统阶段数据伴随一定的运营活动而产生并记录在数据库。
用户原创内容阶段Web2.0时代。
感知式系统阶段物联网中的设备每时每刻自动产生大量数据。
3.试述大数据的4个基本特征。
数据量大(Volume)据类型繁多(Variety)处理速度快(Velocity)价值密度低(Value)4.试述大数据时代的“数据爆炸”特性。
大数据摩尔定律:人类社会产生的数据一直都在以每年50%的速度增长,即每两年就增加一倍。
5.科学研究经历了那四个阶段?实验比萨斜塔实验理论采用各种数学,几何,物理等理论,构建问题模型和解决方案。
例如:牛一,牛二,牛三定律。
计算设计算法并编写相应程序输入计算机运行。
数据以数据为中心,从数据中发现问题解决问题。
6.试述大数据对思维方式的重要影响。
全样而非抽样效率而非精确相关而非因果7.大数据决策与传统的基于数据仓库的决策有什么区别?数据仓库以关系数据库为基础,在数据类型和数据量方面存在较大限制。
大数据决策面向类型繁多的,非结构化的海量数据进行决策分析。
8.举例说明大数据的具体应用。
汽车行业大数据和物联网技术无人汽车互联网行业分析客户行为,进行商品推介和有针对性的广告投放。
城市管理智能交通环保检测城市规划和智能安防生物医学流行病预测智慧医疗健康管理解读DNA个人生活分析个人生活行为习惯,提供周到的个性化服务9.举例说明大数据的关键技术数据采集数据存储和管理数据处理分析数据安全与隐私保护10.大数据产业包含哪些层面?IT基础设施层数据源层数据管理层数据分析层数据平台层数据应用层11.定义并解释一下术语:云计算,物联网。
云计算实现了通过网络提供可伸缩的廉价的分布式计算力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网:物物相连的互联网,利用局部网络或者互联网等通信技术把传感器,控制器,机器,人员和物等通过新的方式连在一起,形成人与物,物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据,云计算和物联网三者之间的区别和联系。
大数据、云计算和物联网的区别大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
大数据、云计算和物联网的联系从整体上看,大数据、云计算和物联网这三者是相辅相成的。
大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式和数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。
反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。
物联网的传感器源源不断产生的大量数据,构成了大数据的重要来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段向自动产生阶段,大数据时代也不会这么快就到来。
同时,物联网需要借助于云计算和大数据技术、实现物联网大数据的存储、分析和处理。
云计算、大数据和物联网,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
大数据第二章课后题答案——大数据处理架构Hadoop1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。
Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
①Hadoop 的核心是分布式文件系统( Hadoop Ditributed FileSystem,HDFS )和MapReduce。
②HDFS是对谷歌文件系统( Google File System, GFS )的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。
③MapReduce 是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。
2.试述Hadoop具有哪些特性。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
①高可靠性。
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
②高效性。
作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。
③高可扩展性。
Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点。
④高容错性。
采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
⑤成本低。
Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运行环境。
⑥运行在Linux平台上。
Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
⑦支持多种编程语言。
Hadoop 上的应用程序也可以使用其他语言编写,如C++。
3.试述Hadoop在各个领域的应用情况。
互联网领域是Hadoop应用的主要阵地。
①雅虎将Hadoop主要用于支持广告系统与网页搜索。
②Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。
③淘宝Hadoop集群服务于阿里巴巴集团各部门,数据来源于各部门产品的线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据,每天在Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推荐系统、排行榜等。
④百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。
4.试述Hadoop的项目结构以及每个部分的具体功能。
Hadoop项目结构各部分具体功能:①Common。
Common为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote Procedure Call)和串行化库。
②Avro。
Avro Avro是Hadoop的一一个子项目,也是Apache中的一个独立项目。
Avro是一个用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用( Remote Procedure Call, RPC )的功能和简单的动态语言集成功能。
Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽, Hadoop的其他子项目(如HBase和Hive )的客户端与服务端之间的数据传输都采用了Avro。
③HDFS。
HDFS是针对GFS的开源实现。
具有处理强大数据、流式处理、可以运行在廉价的商用服务器上等优点。
④HBase。
HBase是针对谷歌的BigTable的开源实现。
一般采用HDFS作为其底层数据存储,基于列的存储,具有强大的非结构化数据存储能力。
具有良好的横向扩展能力。
⑤MapReduce。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。
⑥Zookeeper。
Zookeeper是针对谷歌Chubby的-一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务( 如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等),用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
⑦Hive。
Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储,十分适合数据仓库的统计分析。
⑧Pig。
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。
Pig大大简化了Hadoop常见的工作任务,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近结构化查询语言(SQL)的接口。
⑨Sqoop。
Sqoop可以改进数据的互操作性,主要用来在Hadoop 和关系数据库之间交换数据。
通过Sqoop,可以方便地将数据从MySQL、Oracle 、PostgreSQL 等关系数据库中导人Hadoop (可以导人HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库,使得传统关系数据库和Hadoop之间的数据迁移变得非常方便。
⑩Chukwa。
Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种MapReduce操作。
5.路径JAVA_ HOME是在哪一个配置文件中进行设置的?在安装Hadoop的文件夹下的“conf”目录下配置。
6.所有节点的HDFS路径是通过来设置的,请问它是在哪个配置文件中设置的?在安装目录下的HDFS core-site.xml 配置文件中配置。
是文件系统的名字。
通常是NameNode的hostname 与port,需要在每一个需要访问集群的机器上指定,包括集群中的节点7.试列举单机模式和伪分布模式的异同点。