当前位置:文档之家› 大数据分析pdf

大数据分析pdf


分布式文件系统
GFS将整个系统分为三类角色:Client(客户端)、Master (主服务器)、Chunk Server(数据块服务器)。
分布式文件系统
Hadoop是一个分布式系统基础架构,由Apache基金 会开发。用户可以在不了解分布式底层细节的情况下, 开发分布式程序,充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distri buted File System),简称HDFS。HDFS有着高容错 性的特点,并且设计用来部署在低廉的硬件上。
分布式文件系统
Google文件系统(Google File System,GFS)是一 个可扩展的分布式文件系统,用于大型的、分布式的、 对大量数据进行访问的应用。它运行于廉价的普通硬件 上,将服务器故障视为正常现象,通过软件的方式自动 容错,在保证系统可靠性和可用性的同时,大大减少了 系统的成本。
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据的技术与应用
大数据的技术与应用
1
大数据技术要解决的问题
大数据怎么用
2
大数据的相关技术
3
大数据的应用实例
大数据技术要解决的问题
Streams Real time Near time Batch
Velocity 快速的数据流转
Value
Structured Unstructured Semi-structured All the above
解决方案:
• • Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4)
数据管理
数据储存
数据分析与挖掘
大数据的相关技术
数据采集 数据分析与挖掘
数据储存与管理
计算结果展示
• ETL • 数据众包 (CrowdSouring)
数据众包
数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外 包给非特定的大众网络。
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,
足够一个人昼夜不息的读5.5 年…
每天会有 2.88 万个小时的视频上传到Youtube,足够一个 人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息, 这些消息足够一个人昼夜不息的浏览16 年…
每天亚马逊上将产生 6.3 百万笔订单…
指数型增长的海量数据
所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯
锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了 超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔 记本等设备上存储了超过6EB新数据。1EB数据相当于美国国 会图书馆中存储的数据的4000多倍。事实上,我们如今产生如 此多的数据,以至于根本不可能全部存储下来。例如,医疗卫 生提供商会处理掉他们所产生的90%的数据(比如手术过程中
存储
• • • 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
大数据技术:
• • • • 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等 数据采集
产生的几乎所有实时视频图像)。
大数据的构成
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。 海量交互数据: 源于各种网络和社交媒体。它包括了呼叫详细记 录、设备和传感器信息、GPS和地理定位映射数 据、通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、评价数据、科学信息、 电子邮件等等。可以告诉我们未来会发生什么。
非关系型数据库NoSQL
非关系型数据库NoSQL
Bigtable的设计目的是可靠地处理PB级别的数据, 并且能够部署到上千台机器上。Bigtable已经在超过 60个Google的产品和项目上得到了应用,包括 Goo gle Analytics、GoogleEarth等。
• 实时处理的要求,是区别大数据引用和传统数据仓库技术, BI技术的关键差别之一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB>DB
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值
关系型数据库中的表都是存储一些 格式化的数据结构,每个元组字段 的组成都一样,即使不是每个元组 都需要所有的字段,但数据库会为 每个元组分配所有的字段。
非关系型数据库以键值对存储,它 的结构不固定,每一个元组可以有 不一样的字段,每个元组可以根据 需要增加一些自己的键值对,这样 就不会局限于固定的结构,可以减 少一些时间和空间的开销。
大数据的相关技术
数据采集 数据分析与挖掘
数据储存与管理
计算结果展示
• ETL • 数据众包 (CrowdSouring)
• • • • • • •
结构化、非结构化 和半结构化数据 分布式文件系统 关系数据库 非关系数据库 (NoSQL) 数据仓库 云计算和云存储 实时流处理
分布式文件系统
分布式文件系统(Distributed File System)是指文件系统管理 的物理存储资源不一定直接连接在本地节点上,而是通过计算机 网络与节点相连。
TB
PB EB
Variety 多样的数据类型
Volume 海量的数据规模
发现数据价值
软件是大数据的引擎
• 和数据中心(Data Center ) 一样,软件是大数据的 驱动力. • 软件改变世界!
大数据生态:软件是引擎
大数据技术要解决的问题
企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意 味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各 个细节相融合。
大数据技术被设计用于在 成本可承受的条件下,通 过非常快速(velocity) 地采集、发现和分析,从 大量(volumes)、多 类别(variety)的数据 中提取价值(value), 将是IT 领域新一代的技 术与架构。
技术领域的挑战
技术架构的挑战: 1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据,也 不能很好的支持高级别的数据分析。急速膨胀的数 据体量即将超越传统数据库的管理能力。 如何构建全球级的分布式数据库(GloballyDistributed Database) ,可以扩展到数百万的 机器,数已百计的数据中心,上万亿的行数据。
大数据分析
——大数据引领我们走向数据智能化时代
大数据的定义理解
大数据的定义理解
1
大数据时代的背景
什么是大数据
2
大数据的“4V”特征
3
大数据的构成
大数据时代的背景
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到 了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其 增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物 联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银 行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
TB PB EB ZB
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理 的范畴 大数据时代正在来临…
大数据时代的mon就经常 提及Big Data。
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
• 2010年海地地震,海地人散落在全国各地,援助人员为弄
清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾
区上空来查找需要援助的人群。 • 一些研究人员采取了一种不同的做法:他们开始跟踪 海地人所持手机内部的SIM卡,由此判断出手机持有人所 处的位置和行动方向。正如一份联合国(UN)报告所述,此
一般而言,像数据仓库系统、BI应用,对处理时间 的要求并不高。因此这类应用往往运行1、2天获 得结果依然可行的。但实时处理的要求,是区别大 数据应用和传统数据仓库技术、BI技术的关键差别 之一。
一些相关技术
分析技术:
• • • • 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比; 文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真
非结构化数据
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的 数据即称为非结构化数据,包括所有格式的办公文档、文本、 图片、XML、HTML、各类报表、图像和音频/视频信息等等

Velocity 速度
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理 结果就是过时和无效的.
多样性Variety
价值密度Value
速度Velocity
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
大数据的4V特征 体量Volume
相关主题