当前位置:文档之家› 分布式存储技术及容灾方案

分布式存储技术及容灾方案


超过 10TB的自然语言文本库所组成”,“如果数据重整,我
们在应用Hadoop前需要1个月的时间进行处理,而在有了 Hadoop后仅仅需要30分钟。
Hadoop应用——Facebook
• 随着Facebook网站的使用量增加,网站上需要处理和 存储的日志和维度数据激增。在这种环境下对任何一种 数据处理平台的一个关键性要求是它必须具有快速的支 持系统扩展的应变能力。此外,由于工程资源有限,所 以系统必须是可信的,并且易于使用和维护。 • Facebook正在运行世界第二大Hadoop集群系统
• Hadoop集群规模
• 总容量为14.1PB,利用率77.09% • 共有1300台机器 • 每天处理18000道Hadoop作业 • 用户数474人,用户组38个 • 扫描数据:约500TB/天
Hadoop行业应用
• 1.在线旅游:目前Cloudera的Hadoop架构正在为80%左右 的全球在线旅游预定服务。Orbitz CEO Barney Harford表 示,受益于Hadoop架构,他们极为轻松地实现了诸多的数 据分析工作,并在其中得出“MAC用户比Windows用户愿 意支付20美元的成本来预订酒店”,可以帮助发现以前从来
Hadoop应用——Yahoo
• 以网络分析为例,Yahoo目前有超过100亿个网页,1PB的网 页数据内容,2万亿条链接,每日面临这300TB的数据输出。 “在应用Hadoop前,实施这一过程我们大概需要1个月的时 间,但应用后仅需要1周时间”。再以Yahoo搜索为例,“我 们的服务器上保留有用户三年来的搜索记录,这个数据是由
信息,地理数据及其他。这些都是通过超过20个MySQL数据
库和一个Hadoop集群来存储和处理的。
Hadoop行业应用
• 6.基础设施管理:随着更多的公司从服务器、交换机及其他IT 设备商收集并分析数据,Hadoop更有市场。NetApp收集设 备日志(现在已经超过1PB的容量了),并将它们存储在 Hadoop中。 • 7.图像处理:利用Hadoop来存储和处理高来自卫星捕捉的高 分辨率图像,并尝试将这些信息及图像与地理格局的变化相 对应。 • 8.欺诈检测:在金融服务机构和情报机构中,欺诈检测一直 都是关注的重点。Zions Bancorporation利用Hadoop来存 储所有数据,并对客户交易和现货异常进行判断,对可能存 在欺诈行为提前预警的。
分布式存储
大规模数据处理的问题
• 1990年,普通的硬盘驱动器可存储1370MB数据并拥有4.4 MB/s的传输速度 ,只需五分钟的时间就可以读取整个磁盘 的数据。 • 目前,1TB级别的磁盘驱动器是很正常的,但是数据传输的 速度却在100MB/s左右。所以它需要花两个半小时以上的时 间读取整个驱动器的数据,从一个驱动器上读取所有的数据 需要很长的时间,写甚至更慢。 • 如何解决?一个很简单的减少读取时间的办法是同时从多个 磁盘上读取数据。试想一下,我们拥有100个磁盘,每个存 储百分之一的数据。如果它们并行运行,那么不到两分钟我 们就可以读完所有的数据。
• Facebook在Hadoop上存放的数据超过了2PB;
• 每天加载的数据超过10TB;
• Hadoop系统具有2400个内核,大约9TB的内存。
Hadoop应用——淘宝
• 淘宝是在国内最先使用Hadoop的公司之一。淘宝网目 前有会员2亿左右,日均UV高达4000万,日交易量高达 10亿元,每天产生大量的数据,所以部署了一系列不同 规模的Hadoop集群。淘宝生产所使用的Hadoop集群 为目前国内规模最大的Hadoop集群之一。
Hadoop是什么?
• Hadoop是一种针对大数据分析的开源分布式计算平台,是 由Apache软件基金会主席Doug Cutting在雅虎时创建。 • 一个分布式文件系统和并行执行环境,让用户便捷地处理海 量数据。 • 目前Yahoo是最主要的贡献者。
Hadoop应用——Yahoo
• Yahoo目前有超过38000台服务器,有超过4000个以上的服 务器集群,数据总量达到了170PB,每日的数据增量在10TB 以上。Yahoo的Hadoop应用包含有搜索、日志处理 (Analytics, Reporting, Buzz)、用户建模、内容优化,垃 圾邮件过滤器以及广告计算等。
没有发现的数据点,进而使分析和挖掘成为了可能。
• 2.移动数据:Cloudera为“70%美国智能手机”提供服务, 通过无线方式存储和处理移动数据,以及有关市场份额的数
学பைடு நூலகம்以帮助锁定客户。
• 3.电子商务:Cloudera第三个市场是美国超过10,000,000家 网上商店。
Hadoop行业应用
• 4.能源发现:采用Hadoop来对数据进行排序和整理,而这些 数据全部来自从海洋深处地震时产生的数据,而其背后有可 能意味着石油储量。 • 5.能源节省:使用Hadoop来提升电力服务,尽量为用户节省 在资源方面的投入。某些特定功能,如精确并长期的费用预 测如果没有Hadoop几乎很难完成。Opower现在管理着 30TB的信息,其中包括来自5000万用户(横跨60个公共事 业部)能源数据,气象与人口方面的公共及私人数据,历史
分布式存储技术及容灾方案
1
课程大纲
• 分布式存储技术
• Hadoop概念
• Hadoop发展历史 • Hadoop架构 • HDFS架构 • MapReduce架构 • Hadoop实验 • Hadoop灾备
分布式存储
• 分布式存储系统主要包括分布式文件系统与分布式数据库系 统。 • 文件系统与数据库系统区别。
• 文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一 存储数据;
• 文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据 分离;
• 文件系统用操作系统中的存取方法对数据进行管理,数据库系统用 DBMS统一管理和控制数据; • 文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字 段为单位的数据共享。
相关主题