当前位置:文档之家› 大数据:技术与应用实践指南

大数据:技术与应用实践指南

《大数据:技术与应用实践指南》 读书会
赵刚 博士 北京赛智时代信息技术咨询有限公司(CIOManage ) 总经理
作者简介
赵刚,博士。北京赛智时代信息技术咨询有限公司创始人。 历任国内著名信息化咨询公司赛迪顾问股份有限公司高级副总裁、首 席信息化咨询顾问,国内计算机系统集成一级资质企业北京赛迪时代 信息产业股份有限公司总经理、首席架构师,2012年获得中国电子 信息产业发展研究院十大“赛迪学者”称号,兼任中国信息化推进联 盟专家、中国电子学会高级会员。 近2年,主持和参与过的信息化咨询和集成项目有:国家新 一代信息技术应用战略研究、亚太地区智慧城市指标体系研究、中国 -欧盟信息社会研究、天津市智慧城市规划、国土资源部分布式国土 资源信息共享服务平台、国家图书馆文津馆智能搜索集群平台、公安 部虚拟化数据平台、中海油企业级数据中心和灾备中心规划、国药集 团私有云计算平台规划、北京市物联网应用示范项目初步设计、鄂尔 多斯市人口基础数据库建设等。 在信息化领域耕耘10余年,服务的政府、企业客户超过100 家,发表文章若干篇,著有专著《IT管理体系-战略、管理和服务》, 参与编写《智慧城市:规划、建设和评估》、《信息化基本知识》、 《信息系统审计》等。
社交网络等多方面应用。指出大
数据对于联合国和各国政府来说 是一个历史性的机遇,联合国还
探讨了如何利用包括社交网络在
内大数据资源造福人类。
/sites/default/files/BigDataforDevelopment-GlobalPulseMay2012.pdf
1. Volume 2. Variety
数据量巨大
全球在2010 年正式进入ZB 时代, IDC预计到2020 年,全球将总共拥有 35ZB 的数据量。
结构化、半结构化和非结构化数据
如今的数据类型早已不是单一的数据表,日 志、BLOG、微博、音频、视频等多种数据类型, 对数据的处理能力提出了更高的要求。
大数据为全球经济发展孕育了新的机会
2012年12月“世界经济论坛”发布“Big Data, Big Impact”报告 阐述大数据 为国际经济社会发展带来的新机会,建议各国工业界、学术界、非营利性机构与管理 者一起利用大数据所创造的机会。
更快地变革跟踪和响应 更好地理解危机行为的演变
更准确地满足服务需求 更有能力预测供需变化

书的目录结构 •第1章 大数据的概念和发展背景 •第2章 大数据应用的业务需求 •第3章 大数据应用的总体架构和关键技术 •第4章 大数据与企业级应用的整合策略 •第5章 大数据应用的实践方法与案例 •第6章 大数据应用的主流解决方案 •第7章 大数据应用的未来挑战和趋势
如同全世界海滩上的沙子数量总和,目前进入。
1Zettabyte(ZB)=1024 EB
5EB相当于至今全世界人类所讲过的话语。
1Exabyte (EB)=1024 PB
一个事实:2010年全球进入ZB级的大数据时代 大数据:新的自然资源!

•随着互联网等信息技术的广泛应用,数据量正在呈指数级增长,大约每两年翻一番, 这意味着人类在近两年产生的数据量相当于之前产生的全部数据量。 •全球在2010 年正式进入ZB时代,预计到2020 年,全球将总共拥有35ZB的数据量。
• 大物理分析 • 基因图谱分析
• Google、Yahoo、 Facebook等互联网公 司基于分布式计算解 决海量数据处理问题 • 全球2010年进入ZB 时代
• 美国政府、联合国、 世界经济组织以及各个 经济和社会领域的企业 和组织机构关注数据开 放与大数据应用


导读目录
什么是大数据?

从大数据的发展历程说起
第二阶段 (2003-2010年) 第一阶段 (20世纪90年代后) 科技技术 大数据应用 互联网与电子商务 大数据应用 第三阶段 (2010年以后) 经济和社会各个领域 大数据应用
• 气象地图分析

20
不同行业的大数据应用需求
行业
互联网
应用需求
用户数据分析、用户行为分析、推荐系统、数据管理平台(DMP)、广 告跟踪和优化、内容针对性投放、产品分析、病毒式传播、社交图谱关 系分析、位置和邻近跟踪…
货架商品关联性分析、产品推荐、市场营销… 基于客户行为分析的市场营销、产品创新、客户满意度分析、流失预测、 金融欺诈行为监测和预防、金融风险分析与预测… 政府信息开放、宏观经济形势分析和预测、民主选情分析、公共安全监 测和分析、城市基础设施实时监测和分析… 基因组学测序分析、疫情和健康趋势分析、医疗电子健康档案分析… 智能电网分析应用、石油企业大数据分析… 产品需求分析、产品故障诊断与预测、供应链分析与优化、工业物联网 分析… 客户分析、话单分析、信令分析、网络分析与优化、安全智能… 交通流量分析与预测、交通安全水平分析与预测、道路环境监测与分析 21

大数据
哪些主体怎样产生这些数据?
机器与机器/人互动产生的数据
微信、 微博、 博客、 视频、 日志、 音频 ;
人与人互动产生的数据
交易系统产生的数据 OLTP/关系型数据库
RFID、 视频监控、 M2M日志、 传感器数据
• 从计算机系统-社交人-物联,数据量越来越大,价值密度越来越低,潜在价值越来越大 • 从交易数据到交互数据
/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf

数据之“大”
相当于于一个英文字母。 相当于一则短篇故事的内容。 1Megabyte(MB)=l024 KB 相当于一则短篇小说的文字内容。 相当于贝多芬第五乐章交响曲的乐谱内容。 相当于一家大型医院中所有的X光图片资讯量。 相当于50%的全美学术研究图书馆藏书资讯内容。

前言
• 这本书目标读者是大数据技术应用人员,希望让读者明白大数据是如 何落地的,从数据分析的业务需求到大数据技术实现是如何完成的。 • 这本书是从系统架构的角度来阐述大数据,覆盖面广,但受篇幅所限, 很像是一本大数据技术架构的综述和框架,更深入的技术细节就需要读 者做延伸阅读。 • 这本书写作过程中参考了赛智时代公司的大数据研究和咨询成果,也 参阅了大量网络和技术社区中的研究文章,是在边研究、边应用、边总 结中写出的书。 • 这本书是大数据技术发展过程的阶段性总结,随着技术的发展,这本 书也需要不断完善,读者可以关注我的博客。
1Kilobyte(KB)=1024 B
1Byte(字节)
1Gigabyte(GB)=1024 MB
1Terabyte(TB)=1024 GB
1Petabyte(PB)=l024 TB
1Yottabyte(YB)=1024ZB
人类尚未进入的数字时代,但已经并不遥远……

/blog/2012/03/29/big-data-big-deal
国际社会敦促各国政府重视大数据带来发展机会
2012年5月,联合国发布了一 份非常重要的大数据白皮书,总
结了各国政府如何利用大数据更
好地服务和保护人民,列举了大 数据在交通、经济、疫情预测、
• 公共安全分析
大数据价值挖掘的三大方向
1、发现大数据的潜在价值 发现过去没有发现的数据 潜在价值,例如对忽视了的客户 评论文档的利用。 2、实现大数据整合创新的价值 通过不同数据集的整合, 创造新的数据价值,例如对客户 在不同渠道购买行为的整合分析。 3、老数据集在新领域再利用的 价值 在一个领域已经发挥过价 值的数据,再次应用在新的领域 创造出新价值,例如一个业务客 户分析数据重用到另一个业务。
利用数据
•内部业务系统数据库中 •集聚企业应用的数据
结构化数据 •建立企业级主数据模
• 报表
• 报告
• 可视化图表 • 社交网络分享
•内部交易中同时生成的 型 其他非结构化化数据
•企业外部电子采购、电
子商务、客户服务系统 等生成的外部结构化数 据
构化的社交网络、流媒 •企业外部网站、移动应
用、社交网络、传感器、 视频监控设备等产生的 非结构化数据 体、传感器、物联网等 数据
零售 金融 政府 医疗 能源 制造 电信 交通物流
电子商务:基于客户行为分析的产品推荐
看过本商品的顾客还看了 (相似选购行为分析 -推荐相似产品) 购买本商品的顾客还购买了 根据客户的浏览历史为您推荐 (相似购买行为分析 (预测客户喜好 -推荐组合产品) -推荐最适合的产品)


用数据来说“大数据”
•亚马逊每秒将产生 72.9笔商品订单
1 sec
1 min
•全球每秒钟发送出 290万封电子邮件
•新浪微博每秒要接受100万以上的响应请求
•每分钟会有 20个小时的视频上传到Youtube… •每天被每个家庭消费的平均数据有375M •淘宝每天交易超过数千万笔,其单日数据产生量超过20T
互联网:用户行为分析与热点发现
社区:基于客户喜好分析的定向广告
当前,大数据已成为全球经济热门话题
2011年,麦肯锡全球研究院(MGI)发布《大数据:创新、竞争和生产力 的下一个新领域》报告,这份报告研究了数字数据和文档的状态,同时讲解了处 理这些数据能够释放出的潜在价值,分析了大数据的活动和价值链。
/insights/business_technology/big_data_the_next_frontier_for_innovation
www.
都是什么类型的数据? 80%复杂的非结构化数据 20%结构化数据
Web网页 WEB点击流 文档 社交网络 物联网
vs.
关系型数据库
电话呼叫 各种日志 移动设备数据 多媒体

什么是大数据? ——著名的4V
大数据是指无法在一定时间内用传统数据库软件工具对其内容进 行抓取、管理和处理的数据集合(维基百科)。它有四个主要特征:
相关主题