实验报告课程名称:大数据技术实践实验项目:大数据平台实验仪器: PC机学院:计算机学院专业:计算机科学与技术班级姓名: *学号: *日期: 2019-5-9 指导教师: *成绩:一. 实验目的1. 熟练掌握大数据计算平台相关系统的安装部署2. 理解大数据MapReduce计算模型,并掌握MapReduce程序开发3. 掌握Hive的查询方法4. 掌握Spark的基本操作二. 实验内容1. Hadoop完全分布模式安装2. Hadoop开发插件安装3. MapReduce代码实现4. Hive安装部署5. Hive查询6. Spark Standalone模式安装7. Spark Shell操作三. 实验过程Hadoop开发插件安装实验步骤:1.Eclipse开发工具以及Hadoop默认已经安装完毕,安装在/apps/目录下。
2.在Linux本地创建/data/hadoop3目录,用于存放所需文件。
切换目录到/data/hadoop3目录下,并使用wget命令,下载所需的插件hadoop-eclipse-plugin-2.6.0.jar。
2.将插件hadoop-eclipse-plugin-2.6.0.jar,从/data/hadoop3目录下,拷贝到/apps/eclipse/plugins的插件目录下。
3.进入ubuntu图形界面,双击eclipse图标,启动eclipse。
5.在Eclipse窗口界面,依次点击Window => Open Perspective => Other。
弹出一个窗口。
选择Map/Reduce,并点击OK,可以看到窗口中,有三个变化。
(左侧项目浏览器、右上角操作布局切换、面板窗口)如果在windows下,则需要手动调出面板窗口Map/Reduce Locations面板,操作为,点击window => show view => Other。
在弹出的窗口中,选择Map/Reduce Locations选项,并点击OK。
这样便可以调出视图窗口Map/Reduce Location。
6.添加Hadoop配置,连接Hadoop集群。
在这里添加Hadoop相关配置。
Location name,是为此配置起的一个名字。
DFS Master,是连接HDFS的主机名和端口号。
点击Finish保存配置。
7.另外还需保证Hadoop中的HDFS相关进程已经启动。
在终端命令行输入jps 查看进程状态。
view plain copy1.jps若不存在hdfs相关的进程,如Namenode、Datanode、secondarynamenode,则需要先切换到HADOOP_HOME下的sbin目录,启动hadoop。
view plain copy1.cd /apps/hadoop/sbin2../start-all.sh8.展开左侧项目浏览视图,可以看到HDFS目录结构。
9.上图发现HDFS上,没有存放任何目录。
那下面来创建一个目录,检测插件是否可用。
右键myhadoop下的文件夹,在弹出的菜单中,点击Create new directory。
输入目录名称,点击OK则创建目录成功。
右键文件夹,点击Refresh,可用刷新HDFS目录。
到此Hadoop开发插件已经安装完毕!3.MapReduce代码实现实验步骤:1.切换目录到/apps/hadoop/sbin下,启动hadoop。
view plain copy1.cd /apps/hadoop/sbin2../start-all.sh2.在linux上,创建一个目录/data/mapreduce1。
view plain copy1.mkdir -p /data/mapreduce13.切换到/data/mapreduce1目录下,使用wget命令从网址http://59.64.78.41:60000/allfiles/mapreduce1/buyer_favorite1,下载文本文件buyer_favorite1。
view plain copy1.cd /data/mapreduce12.wget http://59.64.78.41:60000/allfiles/mapreduce1/buyer_favorite1依然在/data/mapreduce1目录下,使用wget命令,从http://59.64.78.41:60000/allfiles/mapreduce1/hadoop2lib.tar.gz,下载项目用到的依赖包。
view plain copy1.wget http://59.64.78.41:60000/allfiles/mapreduce1/hadoop2lib.tar.gz将hadoop2lib.tar.gz解压到当前目录下。
view plain copy1.tar -xzvf hadoop2lib.tar.gz4.将linux本地/data/mapreduce1/buyer_favorite1,上传到HDFS上的/mymapreduce1/in目录下。
若HDFS目录不存在,需提前创建。
view plain copy1.hadoop fs -mkdir -p /mymapreduce1/in2.hadoop fs -put /data/mapreduce1/buyer_favorite1 /mymapreduce1/in5.打开Eclipse,新建Java Project项目。
并将项目名设置为mapreduce1。
6.在项目名mapreduce1下,新建package包。
并将包命名为mapreduce 。
7.在创建的包mapreduce下,新建类。
并将类命名为WordCount。
8.添加项目所需依赖的jar包,右键单击项目名,新建一个目录hadoop2lib,用于存放项目所需的jar包。
将linux上/data/mapreduce1目录下,hadoop2lib目录中的jar包,全部拷贝到eclipse中,mapreduce1项目的hadoop2lib目录下。
选中hadoop2lib目录下所有的jar包,单击右键,选择Build Path=>Add to Build Path9.编写Java代码,并描述其设计思路。
下图描述了该mapreduce的执行过程大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的value,经过在map函数处理,输出中间结果<word,1>的形式,并在reduce函数中完成对每个单词的词频统计。
整个程序代码主要包括两部分:Mapper部分和Reducer部分。
Mapper代码view plain copy1.public static class doMapper extends Mapper<Object, Text,Text, IntWritable>{2.//第一个Object表示输入key的类型;第二个Text表示输入value的类型;第三个Text表示表示输出键的类型;第四个IntWritable表示输出值的类型3.public static final IntWritable one = new IntWritable(1);4.public static Text word = new Text();5.@Override6.protected void map(Object key, Text value,Context context)7.throws IOException, InterruptedException8.//抛出异常9.{10.StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");11. //StringTokenizer是Java工具包中的一个类,用于将字符串进行拆分12.13. word.set(tokenizer.nextToken());14.//返回当前位置到下一个分隔符之间的字符串15. context.write(word, one);16.//将word存到容器中,记一个数17. }在map函数里有三个参数,前面两个Object key,Text value就是输入的key和value,第三个参数Context context是可以记录输入的key和value。
例如context.write(word,one);此外context还会记录map运算的状态。
map阶段采用Hadoop的默认的作业输入方式,把输入的value用StringTokenizer()方法截取出的买家id字段设置为key,设置value为1,然后直接输出<key,value>。
Reducer代码view plain copy1.public static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable>{2.//参数同Map一样,依次表示是输入键类型,输入值类型,输出键类型,输出值类型3.private IntWritable result = new IntWritable();4.@Override5.protected void reduce(Text key, Iterable<IntWritable> values, Context context)6.throws IOException, InterruptedException {7.int sum = 0;8.for(IntWritable value : values) {9.sum += value.get();10.}11. //for循环遍历,将得到的values值累加12.result.set(sum);13. context.write(key, result);14.}15. }map输出的<key,value>先要经过shuffle过程把相同key值的所有value聚集起来形成<key,values>后交给reduce端。
reduce端接收到<key,values>之后,将输入的key直接复制给输出的key,用for循环遍历values并求和,求和结果就是key值代表的单词出现的总次,将其设置为value,直接输出<key,value>。