当前位置：文档之家› 大数据实验分析报告

大数据实验分析报告

大数据实验报告————————————————————————————————作者：————————————————————————————————日期：课程实验报告专业年级14级软件工程课程名称大数据技术原理与应用指导教师李均涛学生姓名吴勇学号20142205042026 实验日期2017.05.04实验地点笃行楼B栋301实验成绩教务处制2017年03月09日实验项目名称Liunx基本操作实验目的及要求1.了解Liunx操作系统发展历史。

2.学习Liunx操作系统基本概念及操作。

3.学习Liunx操作系统用户及文件权限管理。

4.Linux 目录结构及文件基本操作。

实验内容1.实验楼环境介绍，常用 Shell 命令及快捷键，Linux 使用小技巧。

2.Linux 中创建、删除用户，及用户组等操作。

Linux 中的文件权限设置。

3.Linux 的文件组织目录结构，相对路径和绝对路径，对文件的移动、复制、重命名、编辑等操作。

实验步骤1.Liunx输入输出命令。

2.使用touch命令创建文件夹，后缀都为txt。

3.学会在命令行中获取帮助。

4.输出图形字符。

5.查看用户。

6.创建新用户。

7.删除用户。

8.查看文件权限。

9.用ls –A/Al/dl/AsSh查看文件。

10.变更文件所有者。

11.修改文件权限。

12.目录路径。

13.新建空白文件。

14.文件的复制、删除、移动、重命名。

实验环境Liunx 操作系统实验结果与分析通过学习Liunx操作系统的发展历史、基本操作、用户及文件权限管理以及Linux 目录结构及文件基本操作。

是得我大致了解Liunx操作系统的使用，并且能够完成相应的练习。

教师评语注：可根据实际情况加页课程实验报告专业年级14级软件工程课程名称大数据技术原理与应用指导教师李均涛学生姓名吴勇学号20142205042026 实验日期2017.05.04实验地点笃行楼B栋301实验成绩教务处制2017年03月09日实验项目名称Hadoop的基本操作实验目的及要求1.Hadoop单机模式安装.2.Hadoop伪分布模式配置部署.3.Hadoop介绍及1.X伪分布式安装.4.adoop2.X 64位编译.5.Hadoop2.X 64位环境搭建.实验内容1.hadoop三种安装模式介绍,hadoop单机模式安装,测试安装2.hadoop配置文件介绍及修改,hdfs格式化,启动hadoop进程，验证安装.3.Hadoop1.X伪分布安装, Hadoop介绍,Hadoop变量配置.4.Hadoop2.X 64位编译, 编译Hadoop2.X 64位, 编译Hadoop.5.搭建环境,部署Hadooop2.X,启动Hadoop.实验步骤1.用户及用户组,添加用户及用户组,添加sudo权限.2.安装及配置依赖的软件包,安装openssh-server、java、rsync等,配置ssh免密码登录.3.下载并安装Hadoop, 下载Hadoop 2.6.0, 解压并安装, 配置Hadoop.4.测试验证.5.相关配置文件修改:修改core-site.xml:6.格式化HDFS文件系统.7.Hadoop集群启动.8.测试验证.9.设置Host映射文件.10.下载并解压hadoop安装包11.在Hadoop-1.1.2目录下创建子目录.12.启动hadoop.13. 编译Hadoop2.X 64位.14.使用yum安装sun.15. 部署Hadooop2.X.与Hadoop1.X类似。

实验环境hadoop Xfce终端实验结果与分析通过本次实验，让我对Hadoop有所了解，但是在实验过程中出现许多问题。

例如，不知道该如何下载java jdk，甚至如何创建文件夹目录下的文件，以及Hadoop的环境配置原理以及编译原理和方法。

这些都是实验中出现的问题，但是通过自己查询，问同学，部分问题已经得到解决，但是还存在一部分就只能通过课后自学进行解决！！！通过上述的学习，让我对Hadoop的基本操作有了基础的掌握，包括Hadoop介绍及1.X伪分布式安装，adoop2.X 64位编译，Hadoop2.X 64位环境搭建等。

教师评语注：可根据实际情况加页课程实验报告专业年级14级软件工程课程名称大数据技术原理与应用指导教师李均涛学生姓名吴勇学号20142205042026 实验日期2017.06.01实验地点笃行楼B栋301实验成绩教务处制2017年03月09日实验项目名称HDFS和MapReduce实验目的及要求1.HDFS原理及操作。

2.MapReduce原理及操作。

实验内容1.HDFS原理及操作。

环境说明，HDFS原理，HDFS架构，HDFS读操作，HDFS写操作，测试例子2．MapReduce原理及操作。

环境说明，MapReduce原理，Map过程，Reduce过程，测试例子实验步骤1.HDFS原理及操作。

1.1 环境说明。

虚拟机操作系统： CentOS6.6 64位，单核，1G内存JDK：1.7.0_55 64位Hadoop：1.1.21.2HDFS原理。

HDFS（Hadoop Distributed File System）是一个分布式文件系统，是谷歌的GFS山寨版本。

它具有高容错性并提供了高吞吐量的数据访问，非常适合大规模数据集上的应用，它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。

1.3HDFS架构。

HDFS是Master和Slave的结构，分为NameNode、Secondary NameNode和DataNode三种角色。

1.4HDFS读操作。

客户端通过调用FileSystem对象的open()方法来打开希望读取的文件。

1.5HDFS写操作。

客户端通过调用DistributedFileSystem的create()方法创建新文件。

1.6测试例子1。

1.创建代码目录2. 建立例子文件上传到HDFS中3.配置本地环境4.编写代码5.编译代码6.使用编译代码读取HDFS文件2. MapReduce原理及操作。

2.1环境说明。

虚拟机操作系统： CentOS6.6 64位，单核，1G内存JDK：1.7.0_55 64位Hadoop：1.1.22.2MapReduce原理。

Map 和Reduce。

当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上去执行，每一个Map 任务处理输入数据中的一部分，当Map 任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce 任务的输入数据。

Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到一起并输出。

2.3Map过程。

每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。

map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制），会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这个文件。

2.4Reduce过程。

Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的。

如果reduce端接受的数据量相当小，则直接存储在内存中（缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制，表示用作此用途的堆空间的百分比），如果数据量超过了该缓冲区大小的一定比例（由mapred.job.shuffle.merge.percent决定），则对数据合并后溢写到磁盘中。

2.5测试例子。

1．编写代码。

2.编译代码。

3.打包编译文件。

4.解压气象数据并上传到HDFS中。

5. 运行程序。

6. 查看结果。

实验环境虚拟机操作系统： CentOS6.6 64位，单核，1G内存JDK：1.7.0_55 64位Hadoop：1.1.2实验结果与分析实验分析：通过学习HDFS和MapReduce，了解其原理及操作，但是在实验过程中遇到很多问题，例如无法启动Hadoop、无法连接到Hadoop等问题，通过自己请教老师、同学以及网上自己动手查阅资料得以解决。

明白其工作原理，从而进一步了解到Hadoop的运行机制与操作，更加了解大数据。

教师评语注：可根据实际情况加页。

e商务文档

大数据实验分析报告

相关文档推荐：