1 山西大学研究生项目设计报告 (2015 ---- 2016学年 第1学期)
学院(中心、所): 计算机与信息技术学院 专 业 名 称: 软件工程(专硕) 课 程 名 称: 大数据处理 论 文 题 目:网站用户行为分析 授课 教师(职称): 杜亮
研 究 生 姓 名: 温杰 年 级: 2016级 学 号: 201622405011 成 绩: 评 阅 日 期:
山西大学研究生学院 2016年12月20日 2
大数据实例:网站用户行为分析 大数据实例:网站用户行为分析 ................................................................................................... 2 一、案例简介 ........................................................................................................................... 4
二、案例目的 ........................................................................................................................... 4 三、软件工具 ........................................................................................................................... 4 四、案例任务 ........................................................................................................................... 4 五、实验步骤 ........................................................................................................................... 5 5.1、实验步骤一:实验环境准备 ................................................................................. 5 5.1.1、linux系统的安装 ........................................................................................ 5 5.1.2、Hadoop的安装 ......................................................................................... 6 5.1.3、MySQL的安装 ........................................................................................... 6 5.1.4、HBase的安装 ............................................................................................. 8 5.1.5、Hive的安装 ................................................................................................ 8 5.1.6、Sqoop的安装 .......................................................................................... 10 5.1.7、Eclipse安装 .............................................................................................. 12 5.2、实验步骤二:本地数据集上传到数据参考Hive .............................................. 12 5.2.1、实验数据集的下载 .................................................................................... 12 5.2.2、解压下载得到的数据集到指定目录 ........................................................ 12 5.2.3、数据集的预处理 ........................................................................................ 13 5.3、实验步骤三:Hive数据分析 .............................................................................. 15 5.4、实验步骤四:Hive、MySQL、HBase数据互导 ............................................ 19 5.4.1、Hive预操作 .............................................................................................. 19 3
5.4.2、使用Sqoop将数据从Hive导入MySQL ............................................ 20 5.4.3、使用Sqoop将数据从MySQL导入HBase ......................................... 21 5.5、实验步骤五:利用R进行数据可视化分析 ....................................................... 22 5.5.1、R安装 ........................................................................................................ 22 5.5.2、可视化分析MySQL中的数据 ................................................................ 23 4 一、案例简介 本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。
二、案例目的 1、熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;
2、了解大数据处理的基本流程; 3、熟悉数据预处理方法; 4、熟悉在不同类型数据库之间进行数据相互导入导出; 5、熟悉使用R语言进行可视化分析; 6、熟悉使用Elipse编写Java程序操作HBase数据库。
三、软件工具
图1、软件总体概览图 四、案例任务 1、安装Linux操作系统 2、安装关系型数据库MySQL 3、安装大数据处理框架Hadoop 4、安装列族数据库HBase 5
5、安装数据仓库Hive 6、安装Sqoop 7、安装R 8、安装Eclipse 9、对文本文件形式的原始数据集进行预处理 10、把文本文件的数据集导入到数据仓库Hive中 11、对数据仓库Hive中的数据进行查询分析 12、使用Sqoop将数据从Hive导入MySQL 13、使用Sqoop将数据从MySQL导入HBase 14、使用R对MySQL中的数据进行可视化分析
图2、案例所涉及操作总体概览图 五、实验步骤 5.1、实验步骤一:实验环境准备 5.1.1、linux系统的安装 该部分内容略去。 6
5.1.2、Hadoop的安装 该部分内容详见另一篇参考文档:《Ubuntu伪分布式安装Hadoop详细步骤》. 5.1.3、MySQL的安装 ⒈使用如下命令进行安装MySQL:
2.启动MySQL服务器:
3.确认是否成功: 4.进入MySQL Shell界面: 7
5.解决利用Sqoop导入MySQL中文乱码的问题 导致导入时中文乱码的原因是character_set_server默认设置为latin1,可以单个设置修改编码方式set character_set_server=utf8;但是重启后会失效,建议使用以下方式修改编码方式。如下图:
重启MySQL服务:service mysql restart;登录MySQL后查看MySQL设置的编码。如下图所示: 8
5.1.4、HBase的安装 该部分内容略去。 5.1.5、Hive的安装
1.下载并解压Hive源程序:Hive下载链接
2.使用如下命令进入到解压到的目录,重命名解压目录为Hive-1.2.1,修改Hive-1.2.1目录所有者为wenjie.
cd /usr/local/ sudo mv apache-hive-1.2.1-bin Hive-1.2.1 sudo chown wenjie Hive-1.2.1 –R 3.配置环境变量 为了方便使用,我们把hive命令加入到环境变量中去,命令:gedit ~/.bashrc文件,在其中加入代码:
export HIVE_HOME=/usr/local/Hive-1.2.1 export PATH=$PATH:$HIVE_HOME/bin 保存退出后,命令source ~/.bashrc,使配置生效。 4.修改/usr/local/Hive-1.2.1/conf下的hive-site.xml 将hive-default.xml.template重命名为hive-default.xml;新建一个文件touch hive-site.xml,并在hive-site.xml中粘贴如下配置信息。