大数据分析处理平台及应用
Institute of Software,Chinese Academy of Sciences
大数据分析关键技术及 在医疗领域的应用
汇报人:钟华 中国科学院软件研究所
2014年1月11日
提纲 一.大数据行业应用 二.大数据分析关键技术 三.我们的工作及案例
Institute of Software,Chinese Academy of Sciences
6
大数据应用:互联网与电子商务
Institute of Software,Chinese Academy of Sciences
2014/1/14
7
大数据应用:金融
来自银行的数据
Institute of Software,Chinese Academy of Sciences
来自网络的数据
某位信用卡客户月均刷卡6次,平均 每次刷卡金额500元,平均每年打3 次客服电话,从未有过投诉,按照 传统的数据分析,该客户是一位满 意度较高、流失风险较低的客户。
通过查看该客户的微博,得到的真 实情况是:工资卡和信用卡不在同 一家银行,还款不方便,好几次打 客服电话没接通,客户多次在微博 上抱怨,该客户流失风险较高。
2014/1/14
8
Institute of Software,Chinese Academy of Sciences
医疗行业的数据具有典型的大数据特征
也能从相似的患者的信息中发现更加符合自身情况的治疗手段 。
PatientsLikeme还能基于用户自愿分享的数据进行观测性实验
,而传统方式的临床实验通常比较昂贵
/archives/59439.html
Institute of Software,Chinese Academy of Sciences
通过交互式视觉表现的方式帮助人们探索和解释复杂
数据
可视化是一个交互与循环往复的过程
2014/1/14
24
大数据可视化
Institute of Software,Chinese Academy of Sciences
数据安全与隐私保护
Institute of Software,Chinese Academy of Sciences
网驰(ONCE)2.0
Institute of Software,Chinese Academy of Sciences
ONCE2.0—面向移动互联网、大数据、云计算等新技术趋势,融合虚拟
化、并行计算、内存计算技术,具有云端融合、应用感知等特点
事务密集 应用
开放环境下、丌可预估的用户规模 + 异构多终端
医疗大数据案例-语义搜索
Institute of Software,Chinese Academy of Sciences
医生需要了解一位新来的病人,或者想知道新治疗手段对哪些
病人有效。但是病人病历散布在医院的各个部门,格式各异, 更糟糕的是,各部门都用自己的术语创建病历。
一家创业公司Apixio正在试图解决这个问题,Apixio将病历集
图处理
将大图划分为子图处理:按节点划分或按边划分
使用MapReduce或BSP等范型进行处理
数据处理
批处理,流处理,增量处理,迭代处理,图处理 Hadoop MapReduce, Spark, Dryad, Storm, GraphLab
大数据处理技术
Institute of Software,Chinese Academy of Sciences
包括5名研究员/博导,14名副研究员,17人具有博士学位
学科方向:网络分布计算与软件工程
网络分布式计算(面向云计算、移动互联网、服务计算等
大数据计算
软件工程(面向云计算、移动互联网、服务计算等)
移动和普适计算
网驰中间件平台
Institute of Software,Chinese Academy of Sciences
中到云端,医生可通过语义搜索查找任何病历中的相关信息。
/arc hives/59439.html
医疗大数据案例-患者互助
Institute of Software,Chinese Academy of Sciences
社交网站PatientsLikeMe允许用户分享他们的治疗信息,用户
数据类型决定存储方案
普通文件(分布式文件系统) 关系型数据(数据库或数据仓库) 非结构化(KeyValue数据库,分布式文件系统) 图(图数据库,分布式文件系统)
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库 NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,
数据分析 数据处理
日志分析,数据挖掘,机器学习,关系图分析,实时数据分析 传统统计方法,机器学习算法分布式化,Deep Learning
批处理,流处理,增量处理,迭代处理,图处理 MapReduce范型,BSP模型,DAG数据流
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库
基础设施 传统集群技术,云计算与虚拟化技术,异构集群技术(CPU+GPU)
MongoDB
大数据处理技术
Institute of Software,Chinese Academy of Sciences
批处理
主要使用MapReduce或者DAG数据流方法
流处理
数据实时流入进行处理并更新状态
时间窗口数据累积后进行批处理
迭代处理
将迭代处理转换为批处理,利用内存进行加速
数据密集 应用
文件密集 应用
流式处理 应用
移动 应用
虚拟化共享的分布式软硬件设施 + 海量信息数据
网驰2.0的主要工作
Institute of Software,Chinese Academy of Sciences
三. 我们的工作及案例
中心历叱
Institute of Software,Chinese Academy of Sciences
中国科学院软件研究所,软件工程技术研究中心 创建于1997年,初始名称为“对象技术中心”,
2002年更名为“软件工程技术研究中心”
人员规模:110余人,其中职工40人,流动人员70人
• 检验结果,、费用数据、影像、设备产生的感应数据、基因数据等
数据量
• 结构化数据
类分析往往不是传统的批量处理分析,对于实时运行中的每个时间节点都 会产生影响
• 数据以流的方式进入系统,进行抽取和分析
• 通过对数据进行分析,获取新的知识,拓展新的业务:如实时临床决策支持
价值 等
大数据潜在的业务应用领域
Institute of Software,Chinese Academy of Sciences
2013-2015,医疗相关的大数据应用规模年度复合增长率将达到111.3%
医疗大数据案例-疾病预防
Institute of Software,Chinese Academy of Sciences
2014/1/14
4
数据呈爆炸式的增长
EB ZB
PB
TB
GB
Institute of Software,Chinese Academy of Sciences
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量
大数据分析技术
Institute of Software,Chinese Academy of Sciences
小数据上的分析算法较成熟
回归,分类,聚类,神经网络,协同过滤等
大数据上分析算法主要来自上面方法
一些算法可以用MapReduce表达
迭代型算法可以用基于内存的框架如Spark,进行加速
数据分块,数据库分库分表
数据一致性
强一致性,最终一致性
错误容忍
复制多份,日志回滚
Institute of Software,Chinese Academy of Sciences
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库 NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,
如何便捷、尽早地诊断早期疾病是医学界的一大课题,Seton医
疗机构目前已经能借助大数据做到这一点。
例如充血性心脏衰竭的治疗费用非常高昂,通过数据分析,
Seton的一个团队发现颈静脉曲张是导致充血性心脏衰竭的高危 因素,而颈静脉曲张的诊断几乎没有什么成本
/archives/59439.html
大数据关键技术
大数据存储
如何存取与管理大数据
大数据处理
如何高效地在数据上进行计算
大数据分析
如何从大数据上获取到有用知识
Institute of Software,Chinese Academy of Sciences
大数据存储方式
Institute of Software,Chinese Academy of Sciences
新算法新系统
Deep Learning技术可以从大分析
日志分析,数据挖掘,机器学习,关系图分析,实时数据分析 统计方法,机器学习算法分布式化,Deep Learning
大数据可视化
Institute of Software,Chinese Academy of Sciences
Institute of Software,Chinese Academy of Sciences
一.大数据行业应用
Institute of Software,Chinese Academy of Sciences