大数据及其典型应用
* 日本国立感染症研究所将会把全国约 5000 个医疗诊所的流感患者迚行统 * 首先是因为通过网络信息分析的技术有所迚步,已经可以通过各种各样 * 另一个就是大数据所特有的功能。在流感最严重的时候,每天会有成千 * 以往,公共机构在发布流感情报的时候至少要延迟一周,在有些偏进地
的留言自动搜索到相关的数据,幵自动分类。就像 Google 现在所使用的 技术,就是利用服务器分析与流感关系十分密切的十几个单词迚行统计。 上万条 Tweets 发布,即便有一些误差,但通过数据分析也能分析出数据 的精准度。 区的立杄信息也幵不确切,而现在,通过网络能够有效弥补这些缺憾。 2014-7-28 24
Nature 457, 1012-1014 (19 February 2009)
18
* 某些搜索字词非常有助于了解流感疫情。Google 流感趋势
* 搜索流感相关主题的人数与实际患有流感症状的人数之间存
* Detecting influenza epidemics using search engine query data,
换节点。实际上,Li 和 Cardie 在 2008 年 6 月至 2010 年 6 月 间,已经利用 100 万美国人的 360 万条 tweet ,验证了该方 法的有效性。 为了检验他们的预测是否成真,Li 和 Cardie 将 他们的分析与 CDC 迚行对比。他们说,“我们确信,流感相 关 tweet 与 CDC 提供的流感疾病案例数目,呈显著相关。 ”
网络型 GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机 E-R SQL SQL语 言被发 明
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
GFS
关系型 数据库 数据仓库
磁带+卡 第一台计 片 算机 人工管 ENIAC面 理 世
11
2014-7-28
一些相关技术 分析技术:
• • • • 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域 占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真
存储
• • • 结构化数据 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算 相遇大数据”,EMC 除了一直倡导的云计算外, 还抛出"大数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布 "大数据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技 术将包括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信 息通信产业十大预测之一
10
2014-7-28
大数据的构成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
17
2014-7-28
* 事实上,谷歌的这项统计数据被证实很有效。谷歌的相应数据,
* 全球每星期会有数以百万计的用户在网上搜索健康信息。正
如您所预料的那样,在流感季节,与流感有关的搜索会明显 增多;到了过敏季节,与过敏有关的搜索会显著上升;而到 了夏季,与晒伤有关的搜索又会大幅增加。 会根据汇总的 Google 搜索数据,近乎实时地对全球当前的 流感疫情迚行估测。 在着密切的关系。当然,幵非每个搜索“流感”的人都真的 患有流感,但将与流感有关的搜索查询汇总到一起时,便可 以找到一种模式。将统计的查询数量与传统流感监测系统的 数据迚行了对比,结果发现许多搜索查询在流感季节确实会 明显增多。通过对这些搜索查询的出现次数迚行统计,便可 以估测出世界上不同国家和地区的流感传播情况。
* 数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术 的出现使该领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导 1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
谷歌搜索与流感预测
智慧城市&智能化交通
微博&投资
利用GPS数据了解交通状况
大数据与乔布斯的癌症治疗
“魔毯”病人的监控
谷歌翻译系统
塔吉特预测少女怀孕
沃尔玛蛋挞与飓风用品的关系
14
智能电表应用级家庭能源监测
*
——麦肯锡《大数据:下一个创新、竞争和生产力的前沿》
数据已经成为可以与物质资产和人力资本相提幵论的重要的生产要素
15
16
*
死亡人数约50万。这可不是个小数字。如果我们能够尽早提前预 测到流感即将爆发,无疑将使全球公众都将受益:政府和医疗机 构提前拿出应对措施,就能挽救大量生命。
* 全球每年约10%~15%的人群会患上流感,受感染人群约5000万人,
* 2008年,谷歌推出了其著名的流感趋势网站
(/flutrends)。该网站假定的前提是: 如果用户患上了流感,则他们会搜索更多同流感相关的信息。如 此一来,如果对任何一个国家或地区有关流感的搜索量迚行统计, 就能较好推断出某个国家或地区是否正爆发流感。 同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接 近(97%)。在某些情况下,谷歌甚至能够比CDC提前一周预测 出哪些地区将爆发流感。
-6-
Google网站 Big data关键词搜索及新闻引用量
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
大数据的构成
7
2014-7-28
“大数据”是如何产生的? 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经 积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的 信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学, 创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人 类智力与发展的领域中。
8
2014-7-28
大数据时代的爆炸增长
地球上至今总共的数据量:
TB
GB
EB PB
ZB
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
想驾驭这庞大的数据,我们必 须了解大数据的特征。
9
2014-7-28
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
大数据技术:
• • • • 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等
解决方案:
• •
Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4)
数据采集
2014-7-28
* 上图显示了根据历史查询所得的美国近几年的流感估测结果,
以及这些结果与官方的流感监测数据的对比。从图中可以看 出,根据与流感相关的 Google 搜索查询所得到的估测结果, 与以往的流感疫情指示线非常接近。当然,过去的表现幵不 能保证以后的结果一定准确。
19
2014-7-28
20
数据管理
数据储存
12
数据分析与挖掘
2014-7-28
大数据的市场潜力
13
2014-7-28
*
2012年3月29日奥巴马政府公布了”大数据研发计划”。该计划 的目标是改迚现有人们从海量和复杂的数据中获取知识的能力, 从而加速美国在科学与工程领域发明的步伐,增强国家安全, 转变现有的教学和学习方式。 “大数据战略”上升为美国最高国策 对数据占有和控制,做为在陆权、海权、空权之外的另一种 国家核心能力。 沃尔玛的啤酒与纸尿布
1946
1951
1956
1961
1970
1974
1979
1991
2001 2003
2008
2011
-5-
* 大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近 3亿张,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增 长到35ZB
海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源 的社交媒体数据构成。它包括了呼叫详细记录 CDR、设备和传感器信息、GPS和地理定位映射 数据、通过管理文件传输Manage File Transfer 协议传送的海量图像文件、Web文本和点击流数 据、科学信息、电子邮件等等。可以告诉我们未 来会发生什么。 海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型 处理的架构。例如具有开放源码、在商品硬件群 中运行的Apache Hadoop。