当前位置：文档之家› 大数据环境集群环境搭建

大数据环境集群环境搭建

大数据环境搭建
1、CentOS 6.5
2、JDK 1.8
3、Hadoop 2.6
4、Hive 1.1.0
5、ZooKeeper-3.4.9
6、kafka_2.11-
7、Spark 2.1.1
8、flume-ng-1.6.0
CentOS 6.5防火墙和DNS配置
1、关闭防火墙
2、配置yum
JDK 1.7安装
1、将jdk-8u131-linux-
2、安装JDK：把压缩包放到/usr/java/目录下
3、配置jdk相关的环境变量
5、rm -f /etc/udev/rules.d/70-persistent-net.rules
安装第二台和第三台服务器
1、安装上述步骤，再安装两台一模一样环境的服务器，因为后面hadoop和spark都是要搭建集群的。

2、集群的最小环境就是三台。

因为后面要搭建ZooKeeper、kafka等集群。

3、另外两台机器的hostname分别设置为spark2和spark3即可，ip分别为
4、在安装的时候，另外两台服务器的centos镜像文件必须重新拷贝一份，放在新的目录里，使用各自自己的镜像文件。

5、服务器的硬盘文件也必须重新选择一个新的目录，以更好的区分。

6、安装好之后，记得要在三台机器的/etc/hosts文件中，配置全三台机器的ip地址到hostname 的映射，而不能只配置本机，这个很重要！
7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。

配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录
生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下
ssh-keygen -t rsa
将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了
cd /root/.ssh
cp id_rsa.pub authorized_keys
2、接着配置三台机器互相之间的ssh免密码登录
使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中（方便好用）
Hadoop
安装hadoop包
1、使用hadoop-，使用W in SCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩：tar -zxvf hadoop-
3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop
4、配置hadoop相关环境变量
修改hadoop相关的配置文件
进入/usr/local/hadoop/etc/hadoop 目录下
修改core-site.xml
修改hdfs-site.xml //设置hdfs的一些目录，放在/usr/local/data的目录下面
修改mapred-site.xml//mapreduce的框架设置为yarn
修改yarn-site.xml
修改slaves文件
在另外两台机器上搭建hadoop
启动hdfs集群
启动yarn集群
安装hive包
1、将的apache-hive-
2、解压缩hive安装包：tar -zxvf apache-hive-
3、重命名hive目录：mv apache-hive- hive
4、配置hive相关的环境变量，下面以.bashrc文件操作
2、使用yum安装mysql server。

3、使用yum安装mysql connector
4、将mysql connector拷贝到hive的lib包中
配置hive-site.xml
配置hive-env.sh和hive-config.sh
验证hive是否安装成功
直接输入hive命令，可以进入hive命令行
ZooKeeper
安装ZooKeeper包
1、将zookeeper-
2、对zookeeper- -zxvf zookeeper-
3、对zookeeper目录进行重命名：mv zookeeper-3.4.5 zk。

4、配置zookeeper相关的环境变量
设置zk节点标识
搭建zk集群
1、在另外两个节点上按照上述步骤配置ZooKeeper，使用scp将zk和.bashrc拷贝到spark2和spark3上即可。

scp -r zk root@slave1:/usr/local/
2、唯一的区别是spark2和spark3的标识号分别设置为1和2。

及myid 中的值修改为1 和2
启动ZooKeeper集群
kafka_
2、对scala- -zxvf scala-
3、对scala目录进行重命名：mv scala-2.11.4 scala
4、配置scala相关的环境变量
5、查看scala是否安装成功：scala -version
6、按照上述步骤在spark2和spark3机器上都安装好scala。

使用scp将scala和.bashrc拷贝到spark2和spark3上即可。

安装Kafka包
1、将kafka_
2、对kafka_ -zxvf kafka_
3、对kafka目录进行改名：mv kafka_ kafka
4、配置kafka
5、安装slf4j
将slf4j-
unzip slf4j-
把slf4j中的slf4j-nop-
搭建kafka集群
1、按照上述步骤在spark2和spark3分别安装kafka。

用scp把kafka拷贝到spark2和spark3行即可。

2、唯一区别的，就是server.properties中的broker.id，要设置为1和2
启动kafka集群
1、在三台机器上分别执行以下命令：nohup bin/kafka-server-start.sh config/server.properties & （必须在kafka的主目录下执行cd /kafka）
2、解决kafka Unrecognized VM option ‘UseCompressedOops’问题
3、使用jps检查启动是否成功
测试kafka集群
使用基本命令检查kafka是否搭建成功
Spark
安装spark包
1、将spark-
2、解压缩spark包：tar zxvf spark-
3、更改spark目录名：mv spark- spark
4、设置spark环境变量
安装spark集群
在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。

启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
安装spark包
1、停止Spark
2、将spark-
3、解压缩spark包：tar zxvf spark-
4、修改spark环境变量
安装spark集群
在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。

scp -r spark- root@spark1:/usr/local/
启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
flume-ng-
安装flume
1、将flume-ng-
2、对flume进行解压缩：tar -zxvf flume-ng-
3、对flume目录进行重命名：mv apache-flume- flume
4、配置scala相关的环境变量
修改flume配置文件
vi /usr/local/flume/conf/flume-conf.properties
agent1表示代理名称
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1
配置source1
= false
= i1
= timestamp
配置channel1
配置sink1
创建需要的文件夹
本地文件夹：mkdir /usr/local/logs HDFS文件夹：hdfs dfs -mkdir /logs 启动flume-agent
测试flume
新建一份文件，移动到/usr/local/logs目录下，flume就会自动上传到HDFS的/logs目录中。

e商务文档

大数据环境集群环境搭建

相关文档推荐：