当前位置:文档之家› 大数据机遇与挑战和应用

大数据机遇与挑战和应用

大数据时代
数据单位:
1Byte = 8 bit,一粒沙子 1 KB = 1,024 Bytes,几撮沙子 1 MB = 1,024 KB = 1,048,576 Bytes,一大汤勺沙子
1 GB = 1,024 MB = 1,048,576 KB,一鞋盒沙子
1 TB = 1,024 GB = 1,048,576 MB,一个操场沙箱 1 PB = 1,024 TB = 1,048,576 GB,一片1.6千米长海滩的沙子 1 EB = 1,024 PB = 1,048,576 TB,上海到香港之间的海滩的沙子
五、机遇与挑战
2、挑战 2.2 两个问题 问题1.数据移动代价过高. 问题2.不能快速适应变化.
ETL:Extract-Transform-Load 的缩写,用来描述将数据 从来源端经过抽取(extract)、转换(transform)、加载 (load)至目的端的过程
OLAP工具(Online Analytical Processing联机分析处理)
二、大数据的发展
DB——LDB——VLDB——BD
来源:自然大数据、生命大数据、社交大数据
动力:廉价的存储、传感器和数据采集技术快速发展、通过云和虚拟化存储设 施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。 可视化是引起数字世界急剧膨胀的主要原因之一
三、大数据的结构类型
包括预定义的数据类型、格式和结构 结构化 例:事务性数据和联机分析处理数据(是数据仓库系统最主要的 应用) 具有可识别的模式并可以解析的文本数据文件
• 虚拟化、网络化、分布式
• 横向可扩展体系架构
五、机遇与挑战
1、机遇 Forrester Research估计企业仅有效利用了不到5%的可用数据。
POS机:MB>>>TB
沃尔玛等前沿公司利用这种新的“大数据”和新的分析平台与工具获得 了竞争优势。 30年后,这些新的数据源来自于一系列设备、客户交互和业务活动,能 提示对企业的行业价值链的深刻见解。
一、大数据的定义和特征
图灵理论——>PC 关系代数——>数据库 谓词演算——>专家系统 ?<——云计算 ?<——大数据
实验科学>理论科学>计算科学>数据密集型科学时代
一、大数据的定义和特征
In information technology,big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.
五、机遇与挑战
2、挑战 2.3 一个鸿沟
一边是至少PB级的数据量,另一边是面向传统数据分析能力设计的数据仓库
和各种BI工具.如果这些系统或工具发展缓慢,该鸿沟将会随着数据量的持续 爆炸式增长而逐步拉大.
Volume:表示大数据的数据体量庞大。
Variety:表示大数据的类型复杂。 Velocity:表示数据产生、处理、分析的速度在持续加快,数据流量大。1秒定律 Value:表示随着数据体量的不断加大,单位数据的价值密度在不断降低,然而整
体价值却在提高。 通过使用高速(velocity)的采集、发现和/或分析【我的理解,分析有的需要高
五、机遇与挑战
2、挑战 2.1 三个变化 (1)数据量。由TB级升至PB级,并仍在持续爆炸式增长。 (2)分析需求。 由常规分析转向深度分析 (DeepAnalytics) 。数据分析日益成为企业 利润必不可少的支撑点。这些分析操作包括诸如移动平均线分析、数据关 联关系分析、回归分析、市场分析等复杂统计分析,我们称之为深度分析。 值得补充的是,文中的大数据分析不仅仅指基于大数据上的深度分析, 也包括常规分析。 (3)硬件平台。 由高端服务器转向由中低端硬件构成的大规模机群平台。
1 ZB = 1,024 EB = 1,048,576 PB,几乎全世界所有的海滩沙子之和
2010年全球数字世界的规模首次达到了ZB级别,1.227 ZB。而2005年这个数字只
有130EB.基本上五年增长了10倍。
友情提示
请勿在室内吸烟
上课时间请勿:
--请将您手机改为“震动” 避免在课室里使用手机 --交谈其他事宜 --随意进出教室
速,有的不需要高速】,从超大容量(volume)的多样(variety)数据中经济地 提取价值(value)。
二、大数据的发展
2011年5月,麦肯锡——《大数据:创新、竞争和生产力的下一个新领域》 2012年1月份,瑞士达沃斯召开的世界经济论坛上《大数据,大影响》 2012年3月,美国奥巴马政府在——《大数据研究和发展倡议》 2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域 2012年7月,联合国政务白皮书——《大数据促发展:挑战与机遇》 2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据: 抓住机遇、守护价值》。 2015年10月,中国共产党的十八届五中全会公报提出要实施“国家大数据战略”
半结构化
例:自描述的具有定义模式的XML(Extensible Markup
Language)数据文件
非结构化
没有固定结构的数据,通常保存为不同类型的文件
例:文本文档、PDF文件、图件和视频
四、大数据的技术架构
应用层
分析层 管理层 基础层பைடு நூலகம்
• 实时决策,内置预测能力 • 数据驱动,数据货币化 • 自助服务 • 迭代、灵活,实时协作 • 结构化数据和非结构化数据 • 并行处理,线性可扩展性
上课时间欢迎:
--提问题和积极回答问题 --随时指出授课内容的不当之处
大数据时代
一、大数据的定义和特征
二、大数据的发展 三、大数据的结构类型 四、大数据的技术架构
五、机遇与挑战
六、大数据的应用 七、大数据基础设施 八、Hadoop平台及相关生态系统
九、NoSql分布式数据库
十、大数据与数据挖掘 十一、大数据展示与交互 十二、大数据安全与隐私 十三、反思
相关主题