当前位置:文档之家› 大数据的分析与应用案例

大数据的分析与应用案例


5
2 大数据有多大?
根据国际数据公司(IDC)的测算,人 类产生的数据量正在呈指数级增长, 大约每2年翻一翻。
6
3 什么是大数据?
大数据(Big data或Megadata),或称巨量数据、海量数据、大资料, 指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截 取、管理、处理、并整理成为人类所能解读的形式的信息。 “Big Data” 这个词最早由 IBM 提出
数据量不断 的增大
大数据的来 源种类多样 化
8
大数据的 真实性




9
大数据不仅仅是大
10
大数据的国内外发展
1 国外万马奔腾,抢占大数据
11
IBM对大数据的角逐
“大数据和分析领域将是IBM未来的利润引擎。”----IBM 的高官
IBM早已在大数据和分析领域投入巨资。据不完全统计,自从2005 年起,IBM花费超过160亿美元收购了35家与大数据和分析相关的公司。
Hive/Hadoop(Hive数据仓库) Facebook开发的Hadoop的一个 子项目“Hive”为HDFS收集的所有数 据创建一个数据仓库。HDFS中的文 件包括来自Scribe的日志数据和来自 MySQL的维度数据,它们都作为可以 访问的具有逻辑分区的表
Facebook的数据仓库架构
41
大数据未来四大发展方向
可视化分析
直观呈现 简单说明 挖掘价值 快速处理 挖掘特点 预测未来 判断需求 用户体验 保证真实 有价值
分 析 的 五 个 方 面
数据挖掘分析
预测性能分析
语义引擎分析
数据质量和管理分析
17
2 大数据的技术
数据采集:ETL(Extraction,Transformation,Loading)即数据的 抽取、转换与装载。ETL作为BI/DW的核心和灵魂,能够按照统一 的规则集成并提高数据的价值,是负责完成数据从数据源向目标 数据仓库转化的过程,是实施数据仓库的重要步骤。
35
36
YARN(资源管理系统)
一、YARN是什么?
1、YARN是Yet Another Resource Negotiator的简称,是Hadoop2.0的 资源管理器。 2、负责集群的资源管理和调度 3、使得多种计算机框架可以运行在一个集群中
二、YARN的特点 1、良好的扩展性和可用性。 2、对多种类型的应用程序进行统一的管理和调度。 3、自带了多种多用户调度器,适合共享集群环境。
29
亚马逊的推荐算法
亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可 能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史 上的。
30
大数据的处理
• 采集
利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据 库来进行简单的查询和处理工作。(主要特点和挑战是并发数高)
2005年收购了Ascential
为IBM带来了提取取、转换和加载(ETL)的数据 集成工具DataStage及其他资产
2007年收购了Cognos、Applix
让IBM拥有了一款端到端商业智能套件,包括 传统的和内存
2009 年吞并了SPSS
IBM增强了在商业智能分析、数据呈现、 社交媒体分析等能力
27
决策树对人脸识别示意图
28
谷歌流感趋势
它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会 搜索流感两个字)。
设置关键 词
用户输入
系统展开 跟踪分析
创建流感 图表
它对于健康服务产业和流行病专家来说是非常有用的,因为它的时 效性极强,能够很好地帮助到疾病暴发的跟踪和处理。 事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力 的,仅波士顿地区,就有700例流感得到确认。
互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的 Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB 的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
18
数据存取:数据库市场成形于上个世纪80年代。近年来随着大数 据应用的兴起,面对爆发式增长的海量数据,传统数据库已难以 应对。
OldSQL
数 据 库
NoSQL
NewSQL
19
基础架构:云存储、分布式文件存储等。
云存储是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式 文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合 起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
20
统计分析:统计,顾名思义即将信息统括起来进行计算的意思, 它是对数据进行定量处理的理论与技术。统计分析,常指对收集 到的有关数据资料进行整理归类并进行解释的过程
1. 每天增加12TB的压缩数据 2. 每天扫描800TB的压缩数据 3. 每天处理25000个映射/化简作业 4. HDFS里面有6500万个文件 5. 30000个客户机同时访问HDFS NameNde
40
Scribe(记录器) Facebook开发的一个开源日志收集 服务,它把几百个日志数据集(每天 有几十个TB的数据量)存放在几个NFS (网络文件服务器)上。
大数据的分析与应用案例
主讲人: 王 妍 2015/10/21
1
主要内容
大数据的产生及概念 大数据的国内外发展情况 大数据的相关技术 大数据的处理平台Hadoop
2
大数据的产生及概念
1 大数据的诞生
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已 经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更 多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基 因学,创造出“大数据”这个概念。
IBM 大数据解决方案已经帮助许多客户获得了可观的投资回报。
电信业:通过分析数据将处理时间减少了 92%
医疗卫生业:通过分析流动的患者数据将死亡率降低了 20%
公用事业:通过分析 2.8 PB 未利用的数据将准确性提高了 99%
13
国外已经大规模投资应用
14
2 国内发展
15
阿里大数据战略
马云则将阿里巴巴的未来定位为“平台、金融和数据”三大核 心业务。
回归
统 计 方 法
LS,Kalman filter, lasso…. PCA,PLS, FDA….
降维
聚类
K-means, Clara,….
21
谷歌票房预测
谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联 网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012 年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之 间存在很强的关联。
22
① 线性模型预测
通过对2012年上映的99部电影的研究,谷歌发现仅依靠搜索量来预测是不够 的。谷歌尝试构建了一个线性的模型,但只达到了70%的准确度。
23
② 线性回归模型预测
为了构建更加精确的预测模型,谷歌最终采用了四类指标:(1)(电影放 映前一周的)电影的搜索量(2)(电影放映前一周的)电影广告的点击量(3) 上映影院数量(4)同系列电影前几部的票房表现
• 导入、预处理
在导入基础上做一些简单的清洗和预处理工作(主要特点和挑战是导入 的数据量大)
• 统计、分析
利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进 行普通的分析和分类汇总等(主要特点和挑战是导入的数据种类多样、 量大)
• 挖掘
在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而 实现一些高级别数据分析的需求(主要特点和挑战是算法很复杂,并且 计算涉及的数据量和计算量都很大)
数据资源化 与云计算的深度结合
科学理论的突破
数据科学和数据联盟的成立
42
Thank you !
43
2011年收购了Algorithmics
只为更多地引入 大数据。
2012年IBM完成了11笔收购
其中5笔涉及数据分析业务,2笔涉及云计算 业务
12
其财报显示:在过去十年中,IBM的软件业务收入翻了一番,利 润翻了三倍,IBM仅在2012年就超过110亿美元的利润。其中,业 务分析收入在2012年增长了13%,2015年底预计将达到16亿美元。
在大数据领域,阿里具备独特的优势,用户从搜索到浏览、支付, 形成深度的交易链条,其中每一个节点都将产生大量数据。
数据魔方
大 数 据 战 略
数据产品
聚石塔 淘宝时光机 阿里金融 收购CNZZ网络技术服务 公司
数据台
重启“阿里妈妈”品牌名
购入新浪微博18%股份
16
大数据的相关技术及应用
1 大数据的分析
信息爆 炸
大数据
3
“只要你的电脑连接着网络,你每敲击一下键盘都会成 为互联网数据的一部分。”----广告词
互联网(社交、搜索、电商)、移动互联网(微博)、物联 网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、 金融(银行、股市、保险)、电信(通话、短信)都在疯狂的产 生着数据。
4
网络1分钟,人间1万年
38
39
Hadoop案例-Facebook
Facebook,全球最大的社交网络服务网站。由于每月活跃用户超过4 亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则。 目前,Facebook的数据仓库Hadoop集群已成为世界上已知规模 最大的Hadoop存储集群。 Facebook的数据仓库Hadoop集群的几个特点:
分类
贝叶斯,决策 树,后向树
相关主题