大数据技术专题研究
…
数据源
现代数据处理框架
大数据产业
产业链环节
大数据概述
• 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
包含内容
IT基础设施层
包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业, 比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提 供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据存储技术 数据处理技术 数据可视化技 术 数据安全技术
系统运维技术
两大核心技术
大数据主要技术
大数据
分布式存储 GFS\HDFS BigTable\HBase NoSQL(键值、列族、图形、文档数据库) NewSQL(如:SQL Azure)
分布式处理 MapReduce
关键技术介绍
hadoop
大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、 交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据( 政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据 (、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统( 如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等) 、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式 计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视 化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业能电网等行业应用的企业、机构或政府部门 ,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等
大数据的4V特性
体量大Volume
大数据概述
非结构化数据的超大规模和增长
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、 报告等)
类型多Variety
价值密度低Value
速度快Velocity
实时分析而非批量式分析
数据输入、处理与丢弃 立竿见影而非事后见效
大数据的三大关键问题——存储、计算、容错
大数据概述
数据分析
数据计算 平 台 管 理
}
计算
数据存储
}
现代数据处理 能力组件
}
容错
文件存储
存储
数据集成
Database Web
Log
大数据主要技术
HDFS(Hadoop Distributed File System) spark openstack MapReduce
负责进行大数据的存储,针对全数据类型和多样计算需求,以海量规模存 储、快速查询读取为特征,存储来自外部数据源的各类数据,支撑数据处 理层的高级应用。 对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发 现业务发展方向,提供业务决策依据。 是关于数据之视觉表现形式的研究,主要旨在借助于图形化手段,清晰有 效地传达与沟通信息 解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的诸如 身份验证、授权过程和输入验证等大量安全问题。由于在数据分析、挖掘 过程中涉及企业各业务的核心数据,防止数据泄露,控制访问权限等安全 措施在大数据应用中尤为关键。 全面监测大数据处理全过程中各参与方的整体状态,支持大数据应用功能 的配置化定义,可快速扩展应用功能。
大数据与云计算、物联网的关系
大数据概述
云计算为大数据提供了技术基础 大数据为云计算提供用武之地
大数据
物联网是大数据的重要来源 大数据技术为物联网数据分析提供支撑
云计算为物联网提供海量数据存储能力 物联网为云计算技术提供了广阔的应用空间
云计算
物联网
目 录 1 2 3
大数据概述 大数据主要技术、厂商、产品 能力储备分析
大数据与云计算、物联网的关系
大数据概述
• 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成, 既有联系又有区别 • 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互
Байду номын сангаас
物 联 网
联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式 联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。 • 物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器 等)、网络与通信技术、数据挖掘与融合技术等。
大数据技术专题研究
目 录 1 2 3
大数据概述 大数据主要技术、厂商、产品 能力储备分析
4
讨论
大数据概念
大数据概述
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处
理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。
数据源层
数据管理层
数据分析层
数据平台层 数据应用层
大数据与云计算、物联网的关系
大数据概述
• 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成, 既有联系又有区别 • 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户
云 计 算
只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种 IT资源。 • 云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等。
4
讨论
技术体系
大数据主要技术 数据可视化 技术
数据处理技术
数据存储技术
数据采集技术
技术分类
主要技术
大数据主要技术
说明
数据采集技术
通过ETL抽取、文件适配器、网络抓取、实时数据采集等多种技术从外部 数据源导入结构化数据(关系库记录)、半结构化数据(日志、邮件等)、 非结构化数据(文件、视频、音频、网络数据流等)及实时数据。