大数据专题
有趣的“大数据”经典数据案例
啤酒与尿布 沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常
会顺便搭配几瓶啤酒来犒劳自己。如今,“啤酒+尿布”的数据分析成果早已成 了大数据技术应用的经典案例,被人津津乐道。 QQ圈子把前女友推荐给未婚妻
2012年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开用户的人际关系网, 把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理 能力给人带来“震撼”。 网站根据你的购物搜索进行商品广告推送
大数据处理之一:采集 利用数个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简
单的查询和处理工作。
大数据处理之二:导入/预处理 统计与分析主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进
行普通的分析和分类汇总等,以满足大多数常见的分析需求。
大数据处理之三:统计/分析 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是
现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样, 于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区 别,于是「大数据」一词因应而生。
大数据的特点
• Volume(大量) • Velocity(高速) • Variety(多样) • veracity(真实性)
据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭 一年产生的数据相当于半个国家图书馆的数据总量。 而大数据并非现在才出现,比 如在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数 据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才爆发呢。
应用在云平台的支撑 下让庞大的数据得以 保存和处理。
移动互联网
•
移动互联网能更
准确、更快地收集用
户信息,比如位置、
生活信息等数据。
社交网络
•
提供大量的UGC、
内容、音• 物联网的不断应
用与发展促使数据 大量增长。
数
据 1.Analytic
分 Visualization
I/O会有极大的占用。
大数据处理之四:挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要
是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实 现一些高级别数据分析的需求。
大数据技术环境:在新兴信息技术的推动下逐渐趋向成熟
云计算 • 云计算服务和云
➢ 越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年前, 跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。
➢ 计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的数据, 从而提供了对他们的愿望和潜在需求的有用信息。
➢ 使用者自身产生的数据信息。人们通过电邮、短信、微博、QQ等产生的 文本信息。
大数据,又称巨量资料,指的是所涉及的数据资料量规模
巨大到无法通过人脑甚至主流软件工具,在合理时间内达
到撷20取13、年管马理云、卸处任理阿、里并集整团理CE成O的为职帮位助时企曾业说经,营大决家策还更没积 搞极清目P的C时的代资的讯时。候,移动互联网来了,还没搞清移动互联 网近的几时年候,,被大热数炒据的时大代数来据了,。不只是指资料,也指这些用来 分析、处理巨量资料的新兴科技。
我们上淘宝买了东西之后,阿里巴巴能够轻而易举地得到我们的购物行为、 和浏览数据,通过云计算分析后,进行精准的行为预测,然后进行商品信息推送。 国内最大的婚恋交友网站
作为一家婚恋网站,百合网不仅需要经常做一些研究报告,分析注册用户的 年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,背 后也大有挖掘的价值。
大数据与物联网、移动互联网、社交网络、云计算等主流技术 结合,缺一不可,相辅相成,才能越走越远、、、
大数据发展的现状
“读心术”、“未卜先知”,都是大数据分析头上的耀眼光环。不管你 据信统不计信,,目“前数全据球”1真2的0家会运说营话商。中人约们有在4互8%联的网运上营的商一正切在行实为施都大会数留据下业数 务据,,其而中通主过流对业这务些也数涉据及的数分据析产,生就、能数够据得采到集消、费数习据惯存、储职、业数、据喜处好理甚、至数 据性分格析等、信数息据。展在示这及些数信据息应的用基多础个上方,面政,府典可型以大治数理据交技通术,及减应少用犯产罪品率包,括 用而于企大业数则据可组以织利与用管这理些的数分据布进式行文有件针系对统性H的ad营o销op,、提分升布业式绩计。算系虽统然目 M前ap大R数ed据u分ce析;还用处于于大发数展据的分初析级的阶数段据,挖要掘从工海具量SP的SS非;结用构于性大数数据据中应提用取服 务出的有阿用里信巴息巴并推不出是的一数件据容分易享的平事台儿、,G但oo是g很le推多出企的业数已据经分开析始平利台用等大。数大据 型分以析In并te推rn出et了为相核关心的的应公用司和,产如品Am。azon, Google, eBay, Twitter 和 Facebook正使用海量信息的外部特性认识消费行为,预测特定需求和整 体趋势。
!
有人预言说未来将会是三分技术,七分数据,得数据者得天下。。。
!
Big Data, it’s more than what you think
大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数 据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为 未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上 帝一样来俯瞰整个世界。
数据存取:关系数据库、NOSQL、SQL等。 基础架构:云存储、分布式文件存储等。 数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机 交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以 自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为 计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一 方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。 统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方 分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、 回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主 成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最 优尺度分析)、bootstrap技术等等。 数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、 相关性分组或关联规则(Affinity grouping or association rules)、聚类 (Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖 掘(Text, Web ,图形图像,视频,音频等) 模型预测:预测模型、机器学习、建模仿真。 结果呈现:云计算、标签云、关系图等。
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于 不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正 是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理) 才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数 据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能 得出结论,那大数据的价值也就无从说起了。
Master Data
Management
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据
(数据质量和数据管理)管 实理 和, 有无 价论 值是 。在大学数术据研分究析还的是基在础商就业是应以用上领五域个,方都面能,够当保然证更分加析深结入果大的数真据
分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据 分析方法。
➢ 至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大, 很难从中挖掘有意义的结论和有用的信息。
大数据的主流技术
数据采集:ETL工具负责将分布的、异构数据源中的数据,如关系数据、平面数据文 件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中, 成为联机分析处理、数据挖掘的基础。
析 (可视化分析)
的
五
个 2.Data Mining
基 本 方
Algotiyhms(数据 挖掘算法)
面
3.Predictive Analytic Capabilities(预测 性分析能力)
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他 们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能 够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图 说话一样简单明了。
近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上 的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才 产生的。据中为咨询预测,到2020年,全球数据量将达到35ZB(相当约90亿块 4TB硬盘容量)。 根据国际数据公司(IDC)的测算,似乎没有足够的磁盘空间存 储。
就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业 存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化 数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远 远快于摩尔定律。
那么,庞大的数据 到底来自哪里呢????!!