当前位置：文档之家› 大数据分析技术与应用_实验2指导

大数据分析技术与应用_实验2指导

第3页
《大数据分析技术与应用》实验二指导
安装 Hadoop-Eclipse-Plugin 插件
启动 Eclipse 后就可以在左侧的 Project Explorer 中看到 DFS Locations（若看到的是 welcome 界面，点击左上角的 x 关闭就可以看到了）。
安装好 Hadoop-Eclipse-Plugin 插件后的效果插件需要进一步的配置。第一步：选择 Window 菜单下的 Preference。
《大数据分析技术与应用》实验二指导
1 实验主题
1、搭建 Hadoop、Eclipse 编程环境 2、在 Eclipse 中操作 HDFS 3、在 Eclipse 中运行 Wordcount 程序 4、参照 Wordcount 程序，自己编程实现数据去重程序
2 实验目的
（1）理解 Hadoop、Eclipse 编程流程；（2）理解 MapReduce 架构，以及分布式编程思想；
第1页
《大数据分析技术与应用》实验二指导
value 为任意值。继续反推，Map 输出的 key 为数据。而在这个实例中每个数据代表输入文件中的一行内容，所以 Map 阶段要完成的任务就在采用 Hadoop 默认的作业输入方式之后，将 value 设置成 key，并直接输出（输出中的 value 任意）。Map 中的结果经过 shuffle 过程之后被交给 Reduce。在 Reduce 阶段不管每个 key 有多少个 value，都直接将输入的 key 复制为输出的 key，并输出就可以了（输出中的 value 被设置成空）
1.安装 Eclipse
（已经安装好）安装目录：/home/hadoop/java/eclipse
2.配置 Hadoop-Eclipse-Plugin
在继续配置前请确保已经开启了 Hadoop。把下载好的 hadoop-eclipse-plugin-2.7.1.jar（已经下载好，在桌面的大数据分析技术与应用_第 2 次实验内容/Hadoop_Eclipse 插件，文件夹内）文件拷贝到 eclipse 安装目录中的 plugins 文件夹内。如下图：
第6页
《大数据分析技术与应用》实验二指导
Hadoop Location 的设置
3 实验性质
实验上机内容，必做，作为课堂平时成绩。
4 实验考核方法
提交上机实验报告，纸质版。要求实验报告内容结构清晰、图文并茂。同学之间实验报告不得相互抄袭。
5 实验报告提交日期与方式
要求提交打印版，4 月 19 日（第 10 周）之前交到软件学院 412。
6 实验平台
操作系统：Linux Hadoop 版本：2.6.0 或以上版本 JDK 版本：1.6 或以上版本 Java IDE：Eclipse
8.2 开启 Hadoop 所有守护进程 .............................................................................................2 8.2 搭建 Eclipse 环境编程实现 Wordcount 程序 ..................................................................3
1.安装 Eclipse..................................................................................................................3 2.配置 Hadoop-Eclipse-Plugin ........................................................................................3 3.在 Eclipse 中操作 HDFS 中的文件..........................................................................7 4.在 Eclipse 中创建 MapReduce 项目.........................................................................8 5.通过 Eclipse 运行 MapReduce.................................................................................13 6.在 Eclipse 中运行 MapReduce 程序会遇到的问题 ...............................................16
在弹出来的 General 选项面板中，General 的设置要与 Hadoop 的配置一致。一般两个 Host 值是一样的，如果是伪分布式，填写 localhost 即可，另外我使用的 Hadoop 伪分布式配置，设置 fs.defaultFS 为 hdfs://localhost:9000，则 DFS Master 的 Port 要改为 9000。Map/Reduce(V2) Master 的 Port 用默认的即可， Location Name 随意填写。最后的设置如下图所示：
输入数据 data1: 2017-3-9 a 2017-3-10 b 2017-3-11 c 2017-3-12 d 2017-3-13 a 2017-3-14 b 2017-3-15 c 2017-3-11 c 输入数据 data2: 2017-3-9 b 2017-3-10 a 2017-3-11 b 2017-3-12 d 2017-3-13 a 2017-3-14 c 2017-3-15 d 2017-3-11 c 输出结果： 2017-3-10 a 2017-3-10 b 2017-3-11 b 2017-3-11 c 2017-3-12 d 2017-3-13 a 2017-3-14 b 2017-3-15 c 2017-3-15 d 2017-3-9 a 2017-3-9 b
8 实验指导
8.2 开启 Hadoop 所有守护进程
（eclipse 运行程序前必须先启动 Hadoop）
（1）首先格式化 namenode 并，开启 hadoop 相关进程（一般启动前把 tmp 里面的文件全部删除）
第2页
《大数据分析技术与应用》实验二指导
bin/hdfs namenode –format sbin/start-dfs.sh （2）查看所有进程
《大数据分析技术与应用》实验二指导
目录
1 实验主题...................................................................................................................................1 2 实验目的...................................................................................................................................1 3 实验性质...................................................................................................................................1 4 实验考核方法...........................................................................................................................1 5 实验报告提交日期与方式.......................................................................................................1 6 实验平台...................................................................................................................................1 7 实验内容和要求.......................................................................................................................1 8 实验指导...................................................................................................................................2
第5页
《大数据分析技术与应用》实验二指导
切换 Map/Reduce 开发视图
第三步：建立与 Hadoop 集群的连接，点击 Eclipse 软件右下角的 Map/Reduce Locations 面板，在面板中单击右键，选择 New Hadoop Location。
建立与 Hadoop 集群的连接
（3）把本地到 hadoop/input （自己建立的）文件夹中到文件上传到 hdfs 文件系统到 input 文件夹下（根据自己的程序的需要，上传不同的文件） bin/hdfs dfs -mkdir /input bin/hdfs dfs -put input/* /input
8.2 搭建 Eclipse 环境编程实现 Wordcount 程序

e商务文档

大数据分析技术与应用_实验2指导

相关文档推荐：