大数据环境搭建
1、CentOS 6.5
2、JDK 1.8
3、Hadoop 2.6
4、Hive 1.1.0
5、ZooKeeper-3.4.9
6、kafka_2.11-
7、Spark 2.1.1
8、flume-ng-1.6.0
CentOS 6.5防火墙和DNS配置
1、关闭防火墙
2、配置yum
JDK 1.7安装
1、将jdk-8u131-linux-
2、安装JDK:把压缩包放到/usr/java/目录下
3、配置jdk相关的环境变量
5、rm -f /etc/udev/rules.d/70-persistent-net.rules
安装第二台和第三台服务器
1、安装上述步骤,再安装两台一模一样环境的服务器,因为后面hadoop和spark都是要搭建集群的。
2、集群的最小环境就是三台。
因为后面要搭建ZooKeeper、kafka等集群。
3、另外两台机器的hostname分别设置为spark2和spark3即可,ip分别为
4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。
5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。
6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname 的映射,而不能只配置本机,这个很重要!
7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。
配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录
生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下
ssh-keygen -t rsa
将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了
cd /root/.ssh
cp id_rsa.pub authorized_keys
2、接着配置三台机器互相之间的ssh免密码登录
使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用)
Hadoop
安装hadoop包
1、使用hadoop-,使用W in SCP上传到CentOS的/usr/local目录下。
2、将hadoop包进行解压缩:tar -zxvf hadoop-
3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop
4、配置hadoop相关环境变量
修改hadoop相关的配置文件
进入/usr/local/hadoop/etc/hadoop 目录下
修改core-site.xml
修改hdfs-site.xml //设置hdfs的一些目录,放在/usr/local/data的目录下面
修改mapred-site.xml//mapreduce的框架设置为yarn
修改yarn-site.xml
修改slaves文件
在另外两台机器上搭建hadoop
启动hdfs集群
启动yarn集群
安装hive包
1、将的apache-hive-
2、解压缩hive安装包:tar -zxvf apache-hive-
3、重命名hive目录:mv apache-hive- hive
4、配置hive相关的环境变量,下面以.bashrc文件操作
2、使用yum安装mysql server。
3、使用yum安装mysql connector
4、将mysql connector拷贝到hive的lib包中
配置hive-site.xml
配置hive-env.sh和hive-config.sh
验证hive是否安装成功
直接输入hive命令,可以进入hive命令行
ZooKeeper
安装ZooKeeper包
1、将zookeeper-
2、对zookeeper- -zxvf zookeeper-
3、对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk。
4、配置zookeeper相关的环境变量
设置zk节点标识
搭建zk集群
1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。
scp -r zk root@slave1:/usr/local/
2、唯一的区别是spark2和spark3的标识号分别设置为1和2。
及myid 中的值修改为1 和2
启动ZooKeeper集群
kafka_
2、对scala- -zxvf scala-
3、对scala目录进行重命名:mv scala-2.11.4 scala
4、配置scala相关的环境变量
5、查看scala是否安装成功:scala -version
6、按照上述步骤在spark2和spark3机器上都安装好scala。
使用scp将scala和.bashrc拷贝到spark2和spark3上即可。
安装Kafka包
1、将kafka_
2、对kafka_ -zxvf kafka_
3、对kafka目录进行改名:mv kafka_ kafka
4、配置kafka
5、安装slf4j
将slf4j-
unzip slf4j-
把slf4j中的slf4j-nop-
搭建kafka集群
1、按照上述步骤在spark2和spark3分别安装kafka。
用scp把kafka拷贝到spark2和spark3行即可。
2、唯一区别的,就是server.properties中的broker.id,要设置为1和2
启动kafka集群
1、在三台机器上分别执行以下命令:nohup bin/kafka-server-start.sh config/server.properties & (必须在kafka的主目录下执行cd /kafka)
2、解决kafka Unrecognized VM option ‘UseCompressedOops’问题
3、使用jps检查启动是否成功
测试kafka集群
使用基本命令检查kafka是否搭建成功
Spark
安装spark包
1、将spark-
2、解压缩spark包:tar zxvf spark-
3、更改spark目录名:mv spark- spark
4、设置spark环境变量
安装spark集群
在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。
启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
安装spark包
1、停止Spark
2、将spark-
3、解压缩spark包:tar zxvf spark-
4、修改spark环境变量
安装spark集群
在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。
scp -r spark- root@spark1:/usr/local/
启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
flume-ng-
安装flume
1、将flume-ng-
2、对flume进行解压缩:tar -zxvf flume-ng-
3、对flume目录进行重命名:mv apache-flume- flume
4、配置scala相关的环境变量
修改flume配置文件
vi /usr/local/flume/conf/flume-conf.properties
agent1表示代理名称
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1
配置source1
= false
= i1
= timestamp
配置channel1
配置sink1
创建需要的文件夹
本地文件夹:mkdir /usr/local/logs HDFS文件夹:hdfs dfs -mkdir /logs 启动flume-agent
测试flume
新建一份文件,移动到/usr/local/logs目录下,flume就会自动上传到HDFS的/logs目录中。