当前位置:文档之家› 大数据分析技术与应用_实验2指导

大数据分析技术与应用_实验2指导

第3页
《大数据分析技术与应用》实验二指导
安装 Hadoop-Eclipse-Plugin 插件
启动 Eclipse 后就可以在左侧的 Project Explorer 中看到 DFS Locations(若看到 的是 welcome 界面,点击左上角的 x 关闭就可以看到了)。
安装好 Hadoop-Eclipse-Plugin 插件后的效果 插件需要进一步的配置。 第一步:选择 Window 菜单下的 Preference。
《大数据分析技术与应用》实验二指导
1 实验主题
1、 搭建 Hadoop、Eclipse 编程环境 2、 在 Eclipse 中操作 HDFS 3、 在 Eclipse 中运行 Wordcount 程序 4、 参照 Wordcount 程序,自己编程实现数据去重程序
2 实验目的
(1) 理解 Hadoop、Eclipse 编程流程; (2) 理解 MapReduce 架构,以及分布式编程思想;
第1页
《大数据分析技术与应用》实验二指导
value 为任意值。继续反推,Map 输出的 key 为数据。而在这个实例中每个数据代表输入文 件中的一行内容,所以 Map 阶段要完成的任务就在采用 Hadoop 默认的作业输入方式之后, 将 value 设置成 key,并直接输出(输出中的 value 任意)。Map 中的结果经过 shuffle 过程 之后被交给 Reduce。在 Reduce 阶段不管每个 key 有多少个 value,都直接将输入的 key 复制 为输出的 key,并输出就可以了(输出中的 value 被设置成空)
1.安装 Eclipse
(已经安装好)安装目录:/home/hadoop/java/eclipse
2.配置 Hadoop-Eclipse-Plugin
在继续配置前请确保已经开启了 Hadoop。 把下载好的 hadoop-eclipse-plugin-2.7.1.jar(已经下载好,在桌面的大数据分析技 术与应用_第 2 次实验内容/Hadoop_Eclipse 插件,文件夹内)文件拷贝到 eclipse 安装目录中的 plugins 文件夹内。如下图:
第6页
《大数据分析技术与应用》实验二指导
Hadoop Location 的设置
3 实验性质
实验上机内容,必做,作为课堂平时成绩。
4 实验考核方法
提交上机实验报告,纸质版。 要求实验报告内容结构清晰、图文并茂。 同学之间实验报告不得相互抄袭。
5 实验报告提交日期与方式
要求提交打印版,4 月 19 日(第 10 周)之前交到软件学院 412。
6 实验平台
操作系统:Linux Hadoop 版本:2.6.0 或以上版本 JDK 版本:1.6 或以上版本 Java IDE:Eclipse
8.2 开启 Hadoop 所有守护进程 .............................................................................................2 8.2 搭建 Eclipse 环境编程实现 Wordcount 程序 ..................................................................3
1.安装 Eclipse..................................................................................................................3 2.配置 Hadoop-Eclipse-Plugin ........................................................................................3 3.在 Eclipse 中操作 HDFS 中的文件..........................................................................7 4.在 Eclipse 中创建 MapReduce 项目.........................................................................8 5.通过 Eclipse 运行 MapReduce.................................................................................13 6.在 Eclipse 中运行 MapReduce 程序会遇到的问题 ...............................................16
在弹出来的 General 选项面板中,General 的设置要与 Hadoop 的配置一致。一 般两个 Host 值是一样的,如果是伪分布式,填写 localhost 即可,另外我使用 的 Hadoop 伪分布式配置,设置 fs.defaultFS 为 hdfs://localhost:9000,则 DFS Master 的 Port 要改为 9000。Map/Reduce(V2) Master 的 Port 用默认的即可, Location Name 随意填写。 最后的设置如下图所示:
输入数据 data1: 2017-3-9 a 2017-3-10 b 2017-3-11 c 2017-3-12 d 2017-3-13 a 2017-3-14 b 2017-3-15 c 2017-3-11 c 输入数据 data2: 2017-3-9 b 2017-3-10 a 2017-3-11 b 2017-3-12 d 2017-3-13 a 2017-3-14 c 2017-3-15 d 2017-3-11 c 输出结果: 2017-3-10 a 2017-3-10 b 2017-3-11 b 2017-3-11 c 2017-3-12 d 2017-3-13 a 2017-3-14 b 2017-3-15 c 2017-3-15 d 2017-3-9 a 2017-3-9 b
8 实验指导
8.2 开启 Hadoop 所有守护进程
(eclipse 运行程序前必须先启动 Hadoop)
(1)首先格式化 namenode 并,开启 hadoop 相关进程(一般启动前把 tmp 里面的文件全部 删除)
第2页
《大数据分析技术与应用》实验二指导
bin/hdfs namenode –format sbin/start-dfs.sh (2)查看所有进程
《大数据分析技术与应用》实验二指导
目录
1 实验主题...................................................................................................................................1 2 实验目的...................................................................................................................................1 3 实验性质...................................................................................................................................1 4 实验考核方法...........................................................................................................................1 5 实验报告提交日期与方式.......................................................................................................1 6 实验平台...................................................................................................................................1 7 实验内容和要求.......................................................................................................................1 8 实验指导...................................................................................................................................2
第5页
《大数据分析技术与应用》实验二指导
切换 Map/Reduce 开发视图
第三步:建立与 Hadoop 集群的连接,点击 Eclipse 软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location。
建立与 Hadoop 集群的连接
(3)把本地到 hadoop/input (自己建立的)文件夹中到文件上传到 hdfs 文件系统到 input 文件夹下(根据自己的程序的需要,上传不同的文件) bin/hdfs dfs -mkdir /input bin/hdfs dfs -put input/* /input
8.2 搭建 Eclipse 环境编程实现 Wordcount 程序
相关主题