当前位置:文档之家› 分布式开发环境的搭建

分布式开发环境的搭建

开发环境的搭建
1Windows平台下Hadoop的配置安装
1.1 下载Hadoop
登陆Hadoop的官网/,按照如下方式点击进行下载
1.2 安装Hadoop
下载后得到文件hadoop-2.7.3.tar.gz,需要在linux环境下解压,并放到指定目录,这里放到D:\hadoop-2.7.3
1.3 配置Hadoop环境变量
1.4 修改Hadoop配置文件
编辑文件D:\hadoop-2.7.3\etc\hadoop\core-site.xml,在<configuration></configurati
template重命名为mapred-site.xml,在<configuration></configuration>添加如下代
编辑文件D:\hadoop-2.7.3\etc\hadoop\yarn-site.xml,在<configuration></configurat
1.5 替换文件
下载到的hadooponwindows-master.zip,解压,将bin目录(包含以下.dll和.exe文件)文件替换原来hadoop目录下的bin目录
1.6 运行环境
运行cmd窗口,执行“hdfsnamenode -format”;
运行cmd窗口,切换到hadoop的sbin目录,执行“start-all.cmd”,它将会启动以下进程。

成功后,如图:
至此,hadoop服务已经搭建完毕。

2Hadoop2.7.3-eclipse-plugin插件
Hadoop2.x之后没有Eclipse插件工具,我们就不能在Eclipse上调试代码,我们要把写好的Java代码的MapReduce打包成jar然后在Linux上运行,所以这种不方便我们调试代码,所以我们自己编译一个Eclipse插件,方便我们在我们本地上调试,经过hadoop1.x的发展,编译hadoop2.x版本的eclipse插件比之前简单多了。

接下来我们开始编译Hadoop-eclipse-plugin插件,并在Eclipse开发Hado op。

2.1 下载安装Ant
下载链接:/bindownload.cgi
2.2 配置Ant环境变量
2.3 下载hadoop-eclipse-plugin插件
登陆https:///winghc/hadoop2x-eclipse-plugin下载hadoop2的eclipse-plugins源代码,并解压到本地磁盘
2.4 编译hadoop-eclipse-plugin插件
打开cmd,切换到..\hadoop2x-eclipse-plugin-master\src\contrib\eclipse-plugin目录,执行ant jar -Dversion=2.7.3 -Declipse.home=D:\eclipse
-Dhadoop.home=D:\hadoop-2.7.3
会出现报错
此时需要结合D:\hadoop-2.7.3\share\hadoop\common\lib中jar包的版本
对.. \hadoop2x-eclipse-plugin-master\ivy\ libraries.properties文件中jar包的版本号进行修改
hadoop.version=2.7.3
commons-collections.version=3.2.2
commons-io.version=2.4
htrace.version=3.1.0-incubating
slf4j-api.version=1.7.10
slf4j-log4j12.version=1.7.10
之后再次进行编译即可
编译生成的jar包在目录
..\hadoop2x-eclipse-plugin-master\build\contrib\eclipse-plugin下
2.5 eclipse配置hadoop-eclipse-plugin插件
将hadoop-eclipse-plugin-2.7.3.jar拷贝到D:\eclipse\plugins目录中,重启eclipse,打开Window-->Preferens,可以看到Hadoop Map/Reduc选项,然后点击,然后添加hadoop-2.7.3进来,如图所示:
点击Window-->Show View -->MapReduce Tools 点击Map/ReduceLocation;点击Map/ReduceLocation选项卡,点击右边小象图标,打开Hadoop Location配置窗口:输入Location Name,任意名称即可.配置Map/Reduce Master和DFS Mastrer,Host和Port配置成hdfs-site.xml与core-site.xml的设置一致即可。

2.6 查看连接是否成功
若出现如下问题failed on connection exception
应考虑是否开启Hadoop服务,启动D:\hadoop-2.7.3\sbin中的start-all.cmd
之后可以利用jps命令查看所有服务是否正常启动,如下为正常启动
此时出现如下界面,即为连接成功
可以通过如下步骤来实现上传文件,创建文件夹等操作
也可以使用命令行语句实现
hdfsdfs -mkdir –p /user/root/input
hdfsdfs -mkdir -p /user/root/output
hadoop fs -put file01 /input
创建结果如图所示:
2.7 创建MapReduce项目并运行
右击New->Map/Reduce Project
新建WordCount.java
之后再对运行环境进行配置
指定输入输出目录
hdfs://localhost:9000/user/root/input hdfs://localhost:9000/user/root/output
运行成功的结果文件
3Spark(大数据分布式处理框架)下载地址:/downloads.html
下载完成后对文件进行解压,解压后的文件如下
可以将Spark的bin目录添加到系统变量PATH中,设置完系统变量后,在任意目录下的cmd命令行中,直接执行spark-shell命令,即可开启Spark的交互式命令行模式。

注:在首次运行spark-shell之前需要在cmd中使用如下语句来修改权限D:\hadoop-2.7.3\bin\winutils.exe chmod 777 /tmp/Hive
3.1 Example的使用
在eclipse中创建java Project
将文件D:\spark-2.1.1-bin-hadoop2.7\examples\src\main\java\org拷贝到新创建的项目的src目录下,将文件D:\spark-2.1.1-bin-hadoop2.7\data拷贝到新创建的项目目录下
导入目录D:\spark-2.1.1-bin-hadoop2.7\jars下的所有jar包
任意选择一个java文件并对其进行配置后运行即可
JavaDecisionTreeRegressionExample.java成功运行结果。

相关主题