当前位置:文档之家› 大数据技术简介

大数据技术简介


大数据技术特点
针对大规模数据处理的需求一直存在,受限于系统 的处理能力和费用,一直没有得到大规模使用 健壮:在一般商用硬件上运行,必须考虑硬件会 频繁失效,可以从容地处理大多数故障。 可扩展:通过增加集群节点,可以线性地扩展以 处理更大的数据集。 简单方便:允许用户快速编写高效的并行代码。
大数据技术能做什么
回顾
Hadoop起源与发展 主流大数据技术 大数据技术特点 Hadoop应用现状 Hadoop伪分布式环境搭建
谢谢!
大数据技术的简单方便、可扩展性和健壮性让其在 大数据处理方面占尽优势,其主要应用场景有: 搜索引擎,为大规模的网页快速建立索引。 大数据存储,利用分布式存储能力,建立数据备 份、数据仓库等。 大数据处理,利用分布式处理能力,例如数据挖 掘、数据分析等。
Hadoop的应用现状
Hadoop的应用现状
主流大数据技术
主流大数据技术
Hadoop已经成长为一个庞大的生态体系 只要和海量数据相关的领域,有 Hadoop 身影 MapReduce是把一个大数据集上的任务分解,并 在并行的多个节点中处理 Hive在Hadoop中扮演数据仓库的角色,Hive使 用类SQL语法进行数据操作 HBase是面向列的数据库,运行在HDFS之上, HBase以BigTable为蓝本,可以快速在数十亿行数 据中随机存取数据
Hadoop版本选择: 0.2X 1.X 2.X(2.7.3)
我们的选择:CDH Hadoop 2.6.0
Байду номын сангаас
Hadoop伪分布式环境搭建(2)
Hadoop安装模式:
单机模式: 占用资源最少的模式 完全运行在本地 不使用Hadoop文件系统 不加载任何守护进程
伪分布模式: “单节点集群”模式 所有的守护进程都运行在同一台机子上 代码调试 可以查看HDFS的输入/输出,以及各守护进程
Hadoop的起源与发展
Doug Cutting
Hadoop是什么
Hadoop是一个开源框架,可编写和运行分布式 应用处理大规模数据 Hadoop框架的核心是HDFS、MapReduce、 Yarn HDFS 是分布式文件系统,提供海量数据的存储 MapReduce 是分布式数据处理模型,提供数据 计算 Yarn是资源管理和调度工具
技术创新,变革未来
大数据技术简介
内容
Hadoop的起源与发展 Hadoop是什么 主流大数据技术 Hadoop应用现状
Hadoop伪分布式环境搭建
Hadoop的起源与发展
Hadoop的思想之源——Google 面对的数据存储和计算难题 大量的网页怎么存储 搜索算法
Google GFS MapReduce BigTable
Yahoo:用户行为分析、支持广告系统、支持 Web搜索、反垃圾邮件系统、个性化推荐 Facebook:存储内部日析、推荐系统 阿里巴巴:广告系统、推荐引擎、搜索排行、历 史订单
Hadoop伪分布式环境搭建(1)
Hadoop发行版选择: Apache CDH HDP
全分布模式:真正的分布式集群配置,用于生产环境
Hadoop伪分布式环境搭建(3)
Linux环境,我们使用的是centos6.5 关闭防火墙,因为它会妨碍hadoop集群间相互通信
sudo chkconfig iptables off sudo service iptables stop jdk安装 配置ssh免密码登录 安装Hadoop 格式化NameNode 启动Hadoop 验证Hadoop 关闭Hadoop
主流大数据技术
Storm是流式计算 Spark是内存计算、流式计算、图计算 Sqoop是从关系数据库导入数据到Hadoop,并可 直接导入到HDFS或Hive Flume是将流数据或日志数据导入HDFS ZooKeeper协调集群成员 Oozie提供管理工作流程和依赖的功能,将多个 MapReduce作业连接到一起,定制彼此间依赖 Ambari可对Hadoop集群提供监控、部署、配置 、升级和管理等核心功能
相关主题