腾讯首席工程师IT大数据技术测试题Spark学习------CentOS环境spark安装[root@spark-master ~]# source /etc/profile
二、hadoop分布式安装与配置
1.安装与配置
把下载的安装包拷贝到服务器上,并解压到安装目录,通常应该对解压出来的文件夹重命名的,便于后面配置,我这里就偷懒直接用解压后的文件名。
然后切换到conf目录下看到有一些模板文件,我们把其中带
spark-env.sh.template 、spark-defaults.conf.template和slaves.template的文件进行复制并重命名(主要是把后面的template后缀去掉),然后修改里面的内容。
#解压安装包到安装目录
[root@spark-master ~]# tar -xvf
/opt/spark/spark-2.3.2-bin-hadoop2.7.tgz -C /opt/spark/
[root@spark-master ~]# cd /opt/spark/spark-2.3.2-bin-hadoop2.7/ [root@spark-master spark-2.3.2-bin-hadoop2.7]# cd conf
#拷贝slaves和spark-env.sh文件
[root@spark-master conf]# cp slaves.template slaves
[root@spark-master conf]# cp spark-env.sh.template spark-env.sh [root@spark-master conf]# vim slaves
#修改slaves配置文件如下
spark-slave1
spark-slave2
[root@spark-master conf]# vim spark-env.sh
#修改spark-env.sh配置文件如下
export JAVA_HOME=/usr/java/jdk1.8.0_152
export SCALA_HOME=/opt/scala/scala-2.12.7
export HADOOP_HOME=/opt/hadoop/hadoop-2.8.5
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.8.5/etc/hadoop
#定义管理端口
export SPARK_MASTER_WEBUI_PORT=8066
#定义master域名和端口
export SPARK_MASTER_HOST=spark-master
export SPARK_MASTER_PORT=7077
#定义master的地址slave节点使用
export SPARK_MASTER_IP=spark-master
#定义work节点的管理端口.work节点使用
export SPARK_WORKER_WEBUI_PORT=8077
#每个worker节点能够最大分配给exectors的内存大小
export SPARK_WORKER_MEMORY=4g
#拷贝spark-defaults.conf配置文件
[root@spark-master conf]# cp spark-defaults.conf.template
spark-defaults.conf
[root@spark-master conf]# vim spark-defaults.conf
#修改spark-default.conf配置文件如下
spark.eventLog.enabled=true
press=true
#保存在本地
#spark.eventLog.dir=file://usr/local/hadoop-2.8.5/logs/userlogs #spark.history.fs.logDirectory=file://usr/local/hadoop-2.8.5/logs/ userlogs
#保存在hdfs上
spark.eventLog.dir=hdfs://spark-master:9000/tmp/logs/root/logs
spark.history.fs.logDirectory=hdfs://spark-master:9000/tmp/logs/ro ot/logs
spark.yarn.historyServer.address=spark-master:18080
注意:在修改slaves文件的时候里面默认有个localhost项要去掉,不然启动的时候会提示Permanently added 'localhost' (ECDSA) to the list of known hosts.
以上都修改完成后把安装目录分别拷贝到slave1和slave2服务器上。
[root@spark-master conf]# scp -r /opt/spark/spark-2.3.2-bin-hadoop2.7 root@spark-slave1:/opt/spark/
[root@spark-master conf]# scp -r /opt/spark/spark-2.3.2-bin-hadoop2.7 root@spark-slave2:/opt/spark/
三、启动与测试
切换到spark安装目录下的sbin目录,这里可以看到spark为我们贴心的准备了很多命令执行脚本,我们执行start-all.sh启动集群。
[root@spark-master conf]# cd ../sbin/
[root@spark-master sbin]# ./start-all.sh
starting org.apache.spark.deploy.master.Master, logging to
/opt/spark/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark .deploy.master.Master-1-VM_10_45_centos.out
spark-slave2: starting org.apache.spark.deploy.worker.Worker, logging to
/opt/spark/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark .deploy.worker.Worker-1-VM_21_17_centos.out
spark-slave1: starting org.apache.spark.deploy.worker.Worker, logging to
/opt/spark/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark .deploy.worker.Worker-1-VM_20_8_centos.out
查看web管理界面,地址:http://10.10.10.88:8066/
以上就是spark完全分布式集群的安装及配置过程,接下来开始继续探索spark 的神奇功能。