当前位置:
文档之家› 大数据分析与处理中的关键科学问题
大数据分析与处理中的关键科学问题
对显于然高p/维n为未很必大总的是数成,立并(不原趋因于:0高!维)时
相X大数=关数(据x;1定,可x或2律,能者和,随x在p中)时难线心间保性目极变证相限标化关e定一(与的理DX意(不t中))义再某,下成具些,立有分所!了量选生不命周
变期量且X无活法性完发全生刻变画化响,应分)析结果(变如量聚选类
大S数ta定tic理al和ly 中Hy心p极ot限he定si理s 的条 件In(fe样re本nc数e T>e>st维ing数()SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率;
Goo而gPle=Fl0u.0T5re导nd致s:2大9%量的误误报 流感报爆率发!规模。(Estimating high—1R0.0Nouuztzoof, S1t0a8tiwsteiceakls) — DE. rLraozresr,, Netaatul.,reT,h2e0P1a4rable of Google Flu: Traps in Big Data Analysis, Science, 2014
计算方法
决策分析 与
真伪评价
大数据关键科学问题
1
主要研究内容1:
大数据表示与大数据建模
主要研究大数据的高效表示及相应的计算建模方法论:
大数据的表示理论与方法(新型编码、基于特征的表示、隐结 构表示、异构数据的统一表示)
大数据抽样理论(对样本总体的推断、数据的集约表示、支持 分布随机处理的抽样理论)
大数据及其面临的挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
大数据技术需要多学科综合研究
数据获取与 数据管理
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一: 大数据资源管理与
公共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
大数据及其面临的挑战
对策建议: 国家应有大数据重大战略
聚焦大数据分析与处理的核心基础 与共性关键技术研究,力求在分析基础 、处理算法、真伪性判定、结合典型领 域的示范应用等方面取得突破,为各行 各业大数据应用提供科学支撑和共性技 术支撑。
大数据及其面临的挑战
切入好:大数据技术涉 及方方面面,但分析与 处理是核心。经过近几 年的“期望膨胀期”之 后的冷思考,对其中科 学问题有了更准确的把 握,对研究方法有了初 步尝试 有了开展 研究的基础。
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据及其面临的挑战
价值: 大数据具有重大的科学社会经济价值
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
挑战一 分析基础被破坏 挑战二 处理模式需革新 挑战三 决策应用缺基础
大数据关键科学问题(挑战的进一步分析)
择C与lu预st测er(失D效(t)!))对t具有某种稳定性吗? 在大数据分析与处理的统计学
与计算基础方面取得突破性进展, 建立起若干新的理论,推动形成数 据科学的基础理论体系。
大数据关键科学问题(挑战的进一步分析)
挑战二 (处理模式需革新)
科学问题二
计算模式更新
环境:单一结构(CPU,MIC) 混合结 构(CPU+GPU+MIC共存协作计算)
大数据及其面临的挑战
的积累,尤其是通
过近年来的反复研讨与实践,对解决大数据分析中关键科学问题有了一些新的解决思 路,再加之,国家重视、产业倒逼都是难得机遇,为该领域的突破带来了可能 有了取得突破的可能。
“在大数据科学平台、干细胞与再生 医学等满足国家重大需求的领域方向 、我国可能实现重大科技突破的领域 以及世界可能发生重大科技事件的领 域加快或加强重大科技布局”。
大数据及其面临的挑战
背景: 大数据与大数据时代
信息技术革命与经济社会活动的交融 大数据(数量巨大、种类繁多、增长极快 、价值稀疏的复杂数据);
科学观测、实验过程的记录(理想的小世界
)
经济社会活动的碎片化再现(真实
的大世界) 大价值!
解读各自领域的大数据正成为各行各业的基
本科学活动(人类基因组
解读DNA
稀疏建模的理论与方法(高阶、非线性稀疏性理论与方法) 高维数据建模的理论与方法(降维、高维统计推断等) 高不确定性数据的建模(统计、概率、逻辑、认知模型等)
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
大数据及其面临的挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储、流数据、超高 维、多源异构等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
数据是生命医学的基本科学活动)。
大数据 需要大智慧
大数据是需要新的处理思 维和技术的信息资产。
( Laney Douglas, Gartner. June, 2012)
Big Data needs Big judgement !
( Shah, et al, Harvard Business Review, 2012 )
大数据关键科学问题(挑战的进一步分析)
挑战三 (决策应用缺基础)
决策分析少基础 (Financial Times,14)
以查询、简单模型为基础的大数据 决策方式其逻辑基础何在?
如何评价其有效性、可靠性?
行业应用缺支撑
大数据行业应用需求旺盛,但缺乏 有效的共性技术支撑与理论指导;
大数据及其面临的挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
独P立值同检分验布的被基破础坏被破坏
以hadoop、spark、神经计算机为 代表的分布式计算架构
以排序与搜索、排序学习、参数服 务器等为基础的互联网应用
实现全球首部稀疏微波成像验证性原理样机 深度网络
局部有进展(偏重架谣构言、比应真用理与多、实科践学方内面涵探的索探)讨,少、但缺少对科学问题的系 统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。
的信息技术
领域科学问题三 大数据分析与处 理的统计学与计
算基础
领域科学问题四 大数据工程(结 合领域的大数据
应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据及其面临的挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
挑战一 (分析基础被破坏)
统计学基础被破坏 (Nature,2014)
计算理论必须重建
对大数据计算如何定义可解? 对大数据计算如何区别难和易? 对大数据如何度量计算复杂性?
(时间十存储十通讯十能耗?)
科学问题一
基大于数线性据的分相析关与性不处再理能的完统全刻计画学随与机变量之 间破破计的坏坏算相建p/关模基n-;f础(>x破0,y的,坏z)假中表设对示(x基,典y底,z型的的例独无子立关:性性D假假N设设A!的维 以度线p=性3回0亿归碱为基例对, Y,=样a本T X个+数en中=E病( X人e) 数= 0,
程序:串行程序设计 MPI并行 多粒 度异构分布并行
模式1:计算密集型 数据密集型 混 合型(计算密集型+数据密集型)
模式2:传统并行 分布式并行
传统算法失效
分布式计算可行吗? 解什么时候可组装? 流数据如何高效处理? 随机计算高效吗? 异构并行可靠吗? (大数据基础算法)
基于大数据的科学发现(所谓的第 四范式)仍缺乏有效的方法论支撑 与理论基础;
基于大数据的科学发现真伪性判定 更加困难
科学问题三
面向典型领域的基于大数据的 科学发现及其方法论依据
目标三
在国家重大需求的若干典型领 域,形成大数据分析与处理的行业 核心技术,促进相应领域科学发现 新模式的形成,推动各行各业利用 大数据的能力与水平。
样本等于母体? 相关性能替代因果性? 大数据推出来的才是真的? 数据足够多可代替理论?
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇
大数据及其面临的挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
社会媒体、人口流 动、居住交通数据
医疗、医保、健康、 影像等大数据
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据