当前位置:文档之家› 大数据的概念及应用(精华)

大数据的概念及应用(精华)


什么时候才算个够?
那是天的事,
悄悄地将它掩埋。
……
……
我们的事
……
2018年6月
基本电荷单元
- 19 1.60217649×10
……
2018年6月
汪峰“歌词”元素表
9张专辑共117首歌曲
……
2018年6月
光速
299792458 m/s
……
2018年6月
另一首
自由,
在桥的这头埋葬,
光明,
在桥的那头破碎, 已没所谓绝望, 微雨中,说声再见
• 印度政 府建立 了用于 身份识 别管理 的生物 识别数 据库, 联合国 全球脉 冲项目 已研究 了对如 何利用 手机和 社交网 站的数 据源来 分析预 测从螺 旋价格 到疾病 爆发之 类的问 题
……
2018年6月
从Gartner新技术曲线看大数据技术(1/3)
……
2018年6月
从Gartner新技术曲线看大数据技术(2/3)
2009年
2009年 中
• 美国政 府通过 启动 Data.go v网站的 方式进 一步开 放了数 据的大 门
2010年 2月
• 肯尼斯ž 库克尔 在《经 济学人 》上发 表了长 达14页 的大数 据专题 报告《 数据, 无所不 在的数 据》。 库克尔 也因此 成为最 早洞见 大数据 时代趋 势的数 据科学 家之一
2014年 4月
• 世界经 济论坛 以“大 数据的 回报与 风险” 主题发 布了《 全球信 息技术 报告(第 13版)》
2014年 5月
• 美国白 宫发布 了2014 年全球 “大数 据”白 皮书的 研究报 告《大 数据: 抓住机 遇、守 护价值 》
2012年 3月
• 美国奥 巴马政 府在白 宫网站 发布了 《大数 据研究 和发展 倡议》, 标志着 大数据 成为重 要的时 代特征。 宣布2 亿美元 投资大 数据领 域,是 大数据 技术从 商业行 为上升 到国家 科技战 略的分 水岭, “未来 的新石 油”, 大数据 技术领 域事关 国家安 全和未 来
2011年 2月
• IBM的 沃森超 级计算 机每秒 可扫描 并分析 4TB(约 2亿页 文字量) 的数据 量,并 在美国 著名智 力竞赛 电视节 目《危 险边缘 》 “Jeopar dy”上击 败两名 人类选 手而夺 冠。后 来纽约 时报认 为这一 刻为一 个“大 数据计 算的胜 利。”
2011年 5月
幻灭期
国家推动 从概念到实用
2012年 4月
• 美国软 件公司 Splunk 于19日 在纳斯 达克成 功上市, 成为第 一家上 市的大 数据处 理公司
复苏期
2016年 2015年 2014年
• “大数 据”首 次出现 在当年 的《政 府工作 报告》 中。《 报告》 中指出, 要设立 新兴产 业创业 创新平 台,在 大数据 等方面 赶超先 进,引 领未来 产业发 展。 “大数 据”旋 即成为 国内热 议词汇 • 国务正 式印发 《促进 大数据 发展行 动纲要 》,《 纲要》 明确, 推动大 数据发 展和应 用,在 未来5 至10年 打造精 准治理、 多方协 作的社 会治理 新模式, 建立运 行平稳、 安全高 效的经 济运行 新机制, 构建以 人为本、 惠及全 民的民 生服务 新体系 • 大数据 “十三 五”规 划,加 快政府 数据开 放共享, 促进大 数据产 业健康 发展
判发展变化
……
2018年6月
目录
大数据的概念 大数据分析与挖掘技术
……
2018年6月
大数据分析挖掘技术

背景:局部数据难以统观全局,大数据需要跨视角、跨媒介、跨行业的海量数据融
合和关联分析,才能更好地进行决策支撑

解决方法:通过面向海量多维数据的机器学习算法和数据关联分析等方法,用直观 形象地方式,展现数据之间潜在的关系 常见大数据分析挖掘技术
大数据空间研究:物理空间-人-赛博空间

个体级应用:基于人与物关联的历史信息去推测未来的关联状态

精准营销:新客推荐
金融征信:风险定价
人力招聘:人岗匹配 ……
……
2018年6月
大数据变化的背后:大数据与云计算
云计算构建新的信息基础设施



在线化
平台化 扁平化 低成本 更透明 更有效 更可信

LBS分析:

前往2个加油站,共停留时间:43分钟 商场消费线上支付11209元,超市消费线上支付3207元
……
……
2018年6月
数据的变化在哪里(3/3)



统计级应用:时间、空间、人、物四个维度的交叉统计分析。以零售业为例

零售研究:物-物 消费者洞察:物-人-物
消费者购买路径:人-物-时间

中国存储数据量

• 美国地理及空间探测 • 美国能源部数据 • 全球可穿戴设备 • 美国国防部数据 • 国际海洋和大气管理 • 物联网数据 • 国家健康研究所 • 国家癌症研究所 • 全球IP流量
1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 兆)=1024KB, 1GB (Gigabyte 吉字节 千兆)=1024MB, 1TB (Trillionbyte 万亿字节 太字节)=1024GB 1PB(Petabyte 千万亿字节 拍字节)=1024TB, 1EB(Exabyte 百亿亿字节 艾字节)=1024PB, 1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB, 1YB (Jottabyte 一亿亿亿字节 尧字节)= 1024 ZB, 1BB (Brontobyte 一千亿亿亿字节)= 1024 YB.
以及无法有效支持OLAP的问题。

主要分析方法:钻取、上卷、切片、切块、旋转
……
2018年6月
知识图谱

基于图结构刻画实体之间关系的技术,采用可视化技术描述其相互联系
为搜索、挖掘、语义理解等应用提供基础的知识库,提高搜索效果,突破传统搜索体验,
拉开语义搜索的序幕
……
2018年6月
数据可视化

……
2018年6月
数据的变化在哪里(2/3)

早前




02985XX6789用户5月消费59元,MOU200分钟 189XXXX1234用户5月消费59元,其中套内49元,套外10元。 手机流量150M :1日-10日75M、11-20日50M、21日-30日25M;视频流量80M、游戏流量 15M……。 MOU200分钟:本地主叫80分钟、本地被叫60分钟、漫游主叫20分钟、漫游被叫40分钟
大数据的 概念、分析技术及应用
2018年6月
目录
大数据的概念 大数据分析与挖掘技术
……
2018年6月
网易云音乐的每日推荐
歌曲
用户
通过什么连接?
……
2018年6月
两首诗
…… 自由的石头, 无畏地坠落向爱。 却在迷惘的路上, …… 过于长久的牺牲, 能把心变为一块岩石。 呵,
轻羽般离去。
迷茫的孩子,
……
2018年6月
大数据发展历程
萌芽期
概念提出 政府插足 研究机构
过热期
案例遍地开花 内部数据为主 并购风起
2012年 1月份
• 瑞士达 沃斯召 开的世 界经济 论坛上, 大数据 是主题 之一, 会上发 布的报 告《大 数据, 大影响 》(Big Data, Big Impact) 宣称, 数据已 经成为 一种新 的经济 资产类 别,就 像货币 或黄金 一样。
……
2018年6月
深度学习

通过层次化的方式和海量的训练数据,从而提升分类或预测的准确性
已在语音识别、图像识别、人脸识别等领域取得巨大成功,目前也已开始应用于内
容推荐、异常检测等
……
2018年6月
多维数据关联

满足用户从多角度多层次进行快速数据查询和分析的数据模型,面向分析决策,解
决传统数据模型在数据维度高、条数多的情况下,无法有效表示数据结构和语义,
• 麦肯锡 (McKin sey&Co mpany) 全球研 究院 (MGI) 发布了 一份报 告—— 《大数 据:创 新、竞 争和生 产力的 下一个 新领域 》,大 数据开 始备受 关注
2011年 12月
• 工信部 发布的 物联网 十二五 规划上, 把信息 处理技 术作为 4项关 键技术 创新工 程之一 被提出 来,其 中包括 了海量 数据存 储、数 据挖掘、 图像视 频智能 分析, 这都是 大数据 的重要 组成部 分
2005年
• hadoop 项目诞 生:采 用 (HDFS) 的数据 存储服 务,以 及 MapRe duce技 术的高 性能并 行数据 处理服 务
2008年 末
• “ 大数 据 ”得 到部分 美国知 名计算 机科学 研究人 员的认 可,业 界组织 计算社 区联盟 发表白 皮书《 大数据 计算: 在商务、 科学和 社会领 域创建 革命性 突破》。
……
2018年6月
厘清几个概念
人工智能
机器学习
数据挖掘 深度学习 ……
……
2018年6月
两个反思故事
……
两个反思故事
……
谢谢!
你总是喜欢把事情拖到第二天,你不能再这么 拖了,因为有一天,你会有很多事情要做,你 的余生都不够你用。
——《余生的第一天》
2018年6月
昨天


月度内漫游地:北京
189XXXX1234用户5月消费流量150M:


今天

第一次5月2点05分,基站ID 2345,微博评论,关键字“马刺” ……
相关主题