Database System
主讲人:唐朝生河南理工大学
第十章数据库新技术
知识点
数据库的发展阶段及特点
1
数据管理技术的发展趋势
2
大数据管理
3
10.3 大数据管理
大数据应用
大数据概述
大数据管理系统
10.3.1 大数据概述
•无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
•规模或复杂程度超出了传统数据库和软件技术所能管理和处理的数据集范围。
10.3.1 大数据概述
应用类型:
•海量交易数据•海量交互数据•海量处理数据
网络大数据:
•自媒体数据•日志数据•富媒体数据
10.3.1 大数据概述
巨量:
数据量巨大,而且在持续、急剧地膨胀
移动设备数据
互联网应用、
电子商务领域传感器数据
科研数据
包括
10.3.1 大数据概述
多样:
异构的数据类型、不同的数据表示和语义解释。
非结构化、半结构化的数据
文本、图像、音频、视频等
10.3.1 大数据概述
快变:
数据到达快,响应速度快。
10.3.1 大数据概述
经济和产业价值:2012年,美国政府启动了“大数据研究和发展计划”,
我国也启动了“973”、“863”大数据研究项目。
科研价值:
引领科学研究范式创新推动人类研究能力跃升
10.3.2 大数据的应用
互联网文本大数据管理与挖掘
•使用信息检索技术对无结构的互
联网文本数据进行索引以满足用户
查找相关新闻的需求。
•对相关文档中包含的关键信息进
行挖掘和抽取以生成结构化数据。
•这些数据进行汇总和分析,以辅
助用户对报道中包含的高阶知识进
行理解。
10.3.2 大数据的应用
互联网文本大数据管理特点:
真实社会的网络映射
感知现在、预测未来
需要传承和创新
10.3.2 大数据的应用
基于大数据的用户建模
•结构化或半结构化数据的SQL分析。
•MapReduce环境下的性能优化。
•数据库事务吞吐能力优化等。
10.3.2 大数据的应用
特点:
•模型的建立来自对大数据的分析结果,通俗地讲是“用数据说话”。
建模的过程是动态的,随着实际对象的变化,模型也在变化。
•数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析,体现了大数据上不同层次的分析:流分析、SQL分析、深度分析的需求。
•用户模型本身也是大数据,维度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需要的高并发数据更新与读取。
10.3.3 大数据管理
大数据管理系统发展新格局
MapReduce 技术
NoSQL 数据管理系统
新技术
和新系统NewSQL 系统
10.3.3 大数据管理
图模型文档模型
Key-Value 模型
NoSQL
系统Big Table 模型•模型简单
•分区备份
•横向扩展
NoSQL 系统
10.3.3 大数据管理
NewSQL:
•融合了NoSQL系统和传统数据库事务管理功能的新型数据库系统。
•NewSQL将SQL和NoSQL的优势结合起来,充分利用计算机硬件的新技术、新结构,研究与开发了若干创新的实现技术。
系统名称
易用性对事务的支持
扩展性数据量成本代表系统操作方式一致性,并发控制等
经典关系数据库
系统SQL系统
易用SQL ACID强一致性<1,000结点TB高Oracle,DB2,Greenplum等
NoSQL系统Get/Put等存取原语
弱一致性
最终一致性
>1,0000结点PB低Big Table,PNUTS,Cloudera等
NewSQL系统SQL ACID>1,0000结点PB低V oltDB.Spanner等
10.3.3 大数据管理
MapReduce:
•以key/value的分布式存储系统为基础,通过元数据集中存储、数据以chunk为单位分布存储和数据chunk冗余复制来保证其高可用性
•简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到应用。
面向分析型应用的关系数据库技术2面向操作型应用的关系数据库技术1面向操作型应用的NoSQL 技术3面向分析型应用的MapReduce 技术
410.3.3 大数据管理
⚫大数据的基本概念和4个重要特征
⚫大数据管理和大数据系统面临的技术需求和挑战⚫大数据管理系统的发展趋势。