大数据介绍(最新)
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
互联网企业
传统企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者,大 数据应用场景十分清晰 Google 研发Bigtable并自行使用 Yahoo发起Hadoop/Hbase开源并自用,
先从一段对话开始。。。
客服:陈先生,海鲜比萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的血压和胆固醇都偏高。 顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康比萨。 顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。 顾客:好。那我要一个家庭特大号比萨,要付多少钱? 客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚 做了心脏搭桥手术,rm自用并提供开源
传统企业IT能力有限,数据处理工作主要依赖于 系统集成商,重点在应用实现,IT技术路线上以 跟随成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
目录
一、引言 二、大数据的背景及定义 三、大数据的关键技术
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该 领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展 ,并在1990年后逐步统一到以关系型数据库为主导
1946 1951 1956 1961
1970 1974 1979
1991
20012003 2008 2011
-9-
大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
认识大数据
研发中心 付斌
目录
一、引言 二、大数据背景及定义 三、大数据的关键技术
BIG DATA
不知道BIG DATA? 你out了!
先从一段对话开始。。。
某比萨店的电话铃响了,客服人员拿起电话 客服:XXX比萨店。您好,请问有什么需要我为您服务 ? 顾客:你好,我想要一份…… 客服:先生,烦请先把您的会员卡号告诉我。 顾客:16846146***。 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是 2646****,您公司电话是4666****,您的手机是1391234****。请问您想 用哪一个电话付费? 顾客:你为什么知道我所有的电话号码? 客服:陈先生,因为我们联机到CRM系统。 顾客:我想要一个海鲜比萨……
SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase
开源组织Apache在2008年将Hadoop列为顶级 项目
2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
IBM E.F.D odd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关 ,进入成熟 期
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相 遇大数据”,EMC 除了一直倡导的云计算外,还抛出" 大数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大 数据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将 包括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通 信产业十大预测之一
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB) Google网站 Big data关键词搜索及新闻引用量
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角
商业解决方案
开源解决方案
HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+
第一台计 卡片
算机
人工管
ENIAC 理
面世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
先从一段对话开始。。。
顾客:那可以刷卡吗? 客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在 还欠银行4807元,而且还不包括房贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先生,根据您的记录,您已经超过今日提款限额。 顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到? 客服:大约30分钟。如果您不想等,可以自己骑车来。 顾客:为什么? 客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记 有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑 着这辆摩托车。 顾客当即晕倒。。。