当前位置：文档之家› 分布式开发环境的搭建

分布式开发环境的搭建

开发环境的搭建
1Windows平台下Hadoop的配置安装
1.1 下载Hadoop
登陆Hadoop的官网/，按照如下方式点击进行下载
1.2 安装Hadoop
下载后得到文件hadoop-2.7.3.tar.gz，需要在linux环境下解压，并放到指定目录，这里放到D:\hadoop-2.7.3
1.3 配置Hadoop环境变量
1.4 修改Hadoop配置文件
编辑文件D:\hadoop-2.7.3\etc\hadoop\core-site.xml，在<configuration></configurati
template重命名为mapred-site.xml，在<configuration></configuration>添加如下代
编辑文件D:\hadoop-2.7.3\etc\hadoop\yarn-site.xml，在<configuration></configurat
1.5 替换文件
下载到的hadooponwindows-master.zip，解压，将bin目录(包含以下.dll和.exe文件)文件替换原来hadoop目录下的bin目录
1.6 运行环境
运行cmd窗口，执行“hdfsnamenode -format”；
运行cmd窗口，切换到hadoop的sbin目录，执行“start-all.cmd”，它将会启动以下进程。

成功后，如图：
至此，hadoop服务已经搭建完毕。

2Hadoop2.7.3-eclipse-plugin插件
Hadoop2.x之后没有Eclipse插件工具，我们就不能在Eclipse上调试代码，我们要把写好的Java代码的MapReduce打包成jar然后在Linux上运行，所以这种不方便我们调试代码，所以我们自己编译一个Eclipse插件，方便我们在我们本地上调试，经过hadoop1.x的发展，编译hadoop2.x版本的eclipse插件比之前简单多了。

接下来我们开始编译Hadoop-eclipse-plugin插件，并在Eclipse开发Hado op。

2.1 下载安装Ant
下载链接：/bindownload.cgi
2.2 配置Ant环境变量
2.3 下载hadoop-eclipse-plugin插件
登陆https:///winghc/hadoop2x-eclipse-plugin下载hadoop2的eclipse-plugins源代码，并解压到本地磁盘
2.4 编译hadoop-eclipse-plugin插件
打开cmd，切换到..\hadoop2x-eclipse-plugin-master\src\contrib\eclipse-plugin目录，执行ant jar -Dversion=2.7.3 -Declipse.home=D:\eclipse
-Dhadoop.home=D:\hadoop-2.7.3
会出现报错
此时需要结合D:\hadoop-2.7.3\share\hadoop\common\lib中jar包的版本
对.. \hadoop2x-eclipse-plugin-master\ivy\ libraries.properties文件中jar包的版本号进行修改
hadoop.version=2.7.3
commons-collections.version=3.2.2
commons-io.version=2.4
htrace.version=3.1.0-incubating
slf4j-api.version=1.7.10
slf4j-log4j12.version=1.7.10
之后再次进行编译即可
编译生成的jar包在目录
..\hadoop2x-eclipse-plugin-master\build\contrib\eclipse-plugin下
2.5 eclipse配置hadoop-eclipse-plugin插件
将hadoop-eclipse-plugin-2.7.3.jar拷贝到D:\eclipse\plugins目录中，重启eclipse，打开Window-->Preferens，可以看到Hadoop Map/Reduc选项，然后点击，然后添加hadoop-2.7.3进来，如图所示：
点击Window-->Show View -->MapReduce Tools 点击Map/ReduceLocation；点击Map/ReduceLocation选项卡，点击右边小象图标，打开Hadoop Location配置窗口：输入Location Name，任意名称即可.配置Map/Reduce Master和DFS Mastrer，Host和Port配置成hdfs-site.xml与core-site.xml的设置一致即可。

2.6 查看连接是否成功
若出现如下问题failed on connection exception
应考虑是否开启Hadoop服务，启动D:\hadoop-2.7.3\sbin中的start-all.cmd
之后可以利用jps命令查看所有服务是否正常启动，如下为正常启动
此时出现如下界面，即为连接成功
可以通过如下步骤来实现上传文件，创建文件夹等操作
也可以使用命令行语句实现
hdfsdfs -mkdir –p /user/root/input
hdfsdfs -mkdir -p /user/root/output
hadoop fs -put file01 /input
创建结果如图所示：
2.7 创建MapReduce项目并运行
右击New->Map/Reduce Project
新建WordCount.java
之后再对运行环境进行配置
指定输入输出目录
hdfs://localhost:9000/user/root/input hdfs://localhost:9000/user/root/output
运行成功的结果文件
3Spark（大数据分布式处理框架）下载地址：/downloads.html
下载完成后对文件进行解压，解压后的文件如下
可以将Spark的bin目录添加到系统变量PATH中，设置完系统变量后，在任意目录下的cmd命令行中，直接执行spark-shell命令，即可开启Spark的交互式命令行模式。

注：在首次运行spark-shell之前需要在cmd中使用如下语句来修改权限D:\hadoop-2.7.3\bin\winutils.exe chmod 777 /tmp/Hive
3.1 Example的使用
在eclipse中创建java Project
将文件D:\spark-2.1.1-bin-hadoop2.7\examples\src\main\java\org拷贝到新创建的项目的src目录下，将文件D:\spark-2.1.1-bin-hadoop2.7\data拷贝到新创建的项目目录下
导入目录D:\spark-2.1.1-bin-hadoop2.7\jars下的所有jar包
任意选择一个java文件并对其进行配置后运行即可
JavaDecisionTreeRegressionExample.java成功运行结果。

e商务文档

分布式开发环境的搭建

相关文档推荐：