当前位置:文档之家› 大数据调研报告 (2)

大数据调研报告 (2)


数据获取之数据预处理
数据集成
数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集 中 , 为用户提供一个统一的视图
数据预处理方法
数据清洗
数据清洗是指在数据集中发现不准确、不完整或不合理数据 , 并对 这些数据进行修补或移除以提高数据质量的过程
冗余消除
数据冗余是指数据的重复或过剩 , 这是数据集的常见问题 . 数据冗 余会增加传输开销 ,浪费存储空间 , 导致数据不一致 , 降低可靠性 .
三种数据采集方式的比较
数据获取之数据传输
原始数据采集后必须将其传 送到数据存储基础设施如数 据中心等待进一步处理.
数据传输两个阶段:
(1) IP 骨干网传输 IP 骨干网提供高容 量主干线路将大数据 从数据源传递到数据 中心 . 传输速率和容 量取决于物理媒体和 链路管理方法 .
(2) 数据中心传输 数据传递到数据中心后 , 将在数据中心内部进行 存储位置的调整和其他 处理 , 这个过程称为数 据中心传输 , 涉及到数 据中心体系架构和传输 协议
大数据特征
1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10 亿个T)。
2.数据类型多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的 数据对数据的处理能力提出了更高的要求。
数据库技术:
NoSQL 数据库有模式自由、 易于复制、提供简单 API 、 最终一致性和支持海量数 据的特性 , 逐渐成为处理大 数据的标准。三种主流的 NoSQL 数据库 : 键值 (keyvalue) 存储数据库、列式 存储数据库和文档存储数 据库
编程模型: NoSQL数据库没有插入操作的 声明性表述 , 对查询和分析的 支持也不够,编程模型可以有 效提高NoSQL数据库的性能 , 缩小了NoSQL和关系型数据库 性能的差距 。主要有三种编程 模型 : 通用处理模型、图处理 模型以及流处理模型 。
典型应用:
(a)数据采集应用:数据 采集应用通过主动获取海量 的实时数据,及时地挖掘出 有价值的信息。 (b)金融银行业的应用: 发现隐含数据的内在特征, 可以帮助金融银行进行实时 决策。
批处理和流处理比较
实时数据处理之交互式处理系统
特征:
交互式数据处理灵活、直 观、便于控制. 操作人员 提出请求,数据以对话的 方式输入,系统便提供相 应的数据或提示信息,引 导操作人员逐步完成所需 的操作,直至获得最后处 理结果.
Hadoop 是典型的大数据批量 处理架构,由 HDFS 负责静态数据 的存储,并通过MapReduce 将计 算逻辑分配到各数据节点进行数据 计算和价值发现. MapReduce采用无共享大规模 集群系统,集群系统具有良好的性 价比和可伸缩性;MapReduce模 型简单、易于理解、易于使用; MapReduce能够提供良好的数据 处理性能。 特性:
代表性处理系统:
典型应用:
(a)在信息处理系统领域中, 主要体现了人机间的交互. 例如,网络日志分析 (b) 互联网领域. 主要体现了 人际间的交互. 如搜索引擎、 电子邮件、即时通讯工具等
Berkeley 的 Spark 系统 Spark 是一个基于内存计算的可扩 展的开源集群计算系统,是专为大 规模数据处理而设计的快速通用的 计算引擎。 Spark拥有MapReduce 所具有的优点,针对 MapReduce 的不足,即大量的网络传输和磁盘 I/O 使得效率低效, Spark 使用内存 进行数据计算以便快速处理查询,实 时返回分析结果,能更好地适用于 数据挖掘与机器学习等需要迭代的 MapReduce的算法
• 数据生成 • 数据存储 • 数据采集 • 数据分析
大数据系统框架
• 数据获取
• 数据分析
• 数据生成
• 数据存储 大数据可进一步细分为大数据科学 (big data science) 和大数据框架 (big data frameworks). 大数据科学是涵盖大数据获取、 调节和评估技术的研究,大数据框架是在计 算单元集群间解决大数据问题的分布式处理 和分析的软件库及算法 . 一个或多个大数据 框架的实例化即为大数据基础设施

数据生成
科学研究数据 网络数据 商业数据
日益增长的需要使用高效的实时 光学观测和监控、 计算生物学 、天文 分析工具挖掘其价值 . 例如 , Amazon 每天要处理几百万的后 端操作和来自第三方销售超过 50 万的查询请求 . 沃尔玛每小时 社交网络应用Facebook 则每天需存储、访问和 分析超过 30 PB 的用户 创造数据 ; Twitter 每月 会处理超过 3200 亿的搜 索
学、高能物理等。
这些领域不但要产 生海量的数据 , 还 需要分布在世界各 地的科学家们协作 分析数据
要处理上百万的客户事务 ,这些
事务被导入数据库 , 约有超过 2.5 PB 的数据量
数据获取
数据采集
步骤
数据传输
数据获取阶段的任 务是以数字形式将 信息聚合 , 以待存 储和分析处理获取 信息的过程
高可靠性、高扩展性、高效性、高 容错性、低成本
实时数据处理之流式处理系统
流式数据特征:
代表性处理系统:
Twitter 的Storm:一套分布式、可靠、可容 错的用于处理流式数据的系统,其流式处理 作业被分发至不同类型的组件,每个组件负 责一项简单的、特定的处理任务。
数据连续不断、 来源众多、格式 复杂、物理顺序 不一、数据的价 值密度低.
图数据综合处理
特征:
图数据中主要包括图中的 节点以及连接节点的边, 通常具有 3 个特征. 第一,节点之间的关联性. 第二,图数据的种类繁多. 第三,图数据计算的强耦 合性.
典型应用:
(a) 互联网领域的应用:搜索引擎中,可以用图表示网页之间 相互的超链接关系,从而计算一个网页的PageRank 得分;图 表示如 E-mail 中的人与人之间的通信关系,从而可以研究社会 群体关系等问题;在微博中,通过图研究信息传播与影响力最 大化等问题. (b) 自然科学领域的应用:图可以用来在化学分子式中查找分 子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等. (c) 交通领域的应用:图可用来在动态网络交通中查找最短路 径,在邮政快递领域进行邮路规划等.
特征
Hale Waihona Puke 3.价值密度低,商业价值高(Value) 第三个特征是数据价值密度相对较低。以视频为例,连续不间断监控过程中,可能有用的数据仅 有一两秒
4.速度快(Velocity) 第四个特征是数据处理速度快,数据产生快,如果海量数据未能实时处理,将失去其应有价值。
5.数据真实性(Veracity) 高质量的数据是大数据发挥效能的前提和基础。之后专业的数据分析工具才能从海量数据中提取 出隐含的、准确的、有用的信息。
交互式数据处理系统
图数据综合处理
批量数据处理系统
代表性处理系统: 特征:
1.数据体量巨大(从TB跃升到PB级别) 2.数据精确度高(企业应用中沉淀下来的数据) 3.数据价值密度低(例如视频数据)
典型应用:
互联网领域: 社交网络(Facebook):文本、图片、音视频 电子商务(淘宝):购买历史记录 搜索引擎(Google) 公共服务领域: 能源、医疗保健
规则性分析 :
解决决策制定和提高分析 效率 . 例如 , 仿真用于分 析复杂系统以了解系统行 为并发现问题 , 而优化技 术则在给定约束条件下给 出最优解决方案
数据分析常用方法
数据可视化 : 与信息绘图 学和信息可视化相关 . 数 据可视化的目标是以图形 方式清晰有效地展示信息 Tabusvis 则是一个轻型的 可视化系统 , 提供对多维 数据的灵活、可定制的数 据可视化
大数据与传统数据的比较
02
大数据处理系统
• 处理数据理念 • 静态数据批处理 • 在线数据实时处理 • 图数据综合处理
• 大数据处理形式
处理数据理念
03
要效率不要绝对精确
处理数据理念
要全体不要抽样
01
要相关不要结果
大数据处理与系统
静态数据批处理
批量数据处理系统
流式数据处理系统
处理形式
在线数据实时处理
统计分析 : 基于统计理论 , 是应用数学的一个分支 . 在 统计理论中 , 随机性和不确 定性由概率理论建模 . 统计 分析技术可以分为描述性统 计和推断性统计 . 描述性统 计技术对数据集进行摘要 (summa-rization) 或描述 , 而推断性统计则能够对过程 进行推断 . 更多的多元统计 分析包括回归、因子分析、 聚类和判别分析
数据存储
硬件基础设施: 数据存储解决的是大规模 数据的持久存储和管理, 数据采集完成后 , 需要高 速的数据传输机制将数据 传输到合适的存储系统 , 供不同类型的分析应用使 用。 数据管理软件:
硬件基础设施实现信息的物 理存储 , 可以从不同的角度 理解存储基础设施,典型存 储技术: 1.随机存取存储器(RAM)
实时数据处理之交互式处理系统
代表性处理系统:
Google 的 Pregel 系统 Pregel 是 Google 提出的基于 BSP(Bulk synchronous parallel)模型的分布式图计算 框架,主要用于图遍历(BFS)、 最短路径(SSSP)、PageRank 计算等. 特性: (a) 采用主/从(Master/Slave)结 构来实现整体功能 (b) 有很好的容错机制。 (c) 使用 GFS 或 BigTable 作 为持久性的存储。
BSP 模型是并行计算模型中的经典模型,采用的是“计算-通信同步”的模式.它将计算分成一系列超步(superstep)的迭代.从 纵向上看,它是一个串行模式,而从横向上看.它是一个并行的模 式,每两个超步之间设置一个栅栏,即整体同步点,确定所有并行 的计算都完成后再启动下一轮超步
相关主题