当前位置:文档之家› 医疗大数据及相关技术

医疗大数据及相关技术


VS
Storm 广泛应用于实时分析,在线机器学习,持续计算等领域。
Page 21
大数据 的 预处理技术
大数据预处理技术主要完成对已接收数据的辨析、抽 取、清洗等操作 目的是将数据按统一的格式提取出来,然后再转化, 集成,载入数据仓库的工具 (ETL) 抽取:因获取的数据可能具有多种结构和类型, 数据抽取过程可以帮助我们将这些复杂的数据 转化为单一的或者便于处理的构型,以达到快 速分析处理的目的。 清洗:对于大数据,并不全是有价值的,有些 数据并不是我们所关心的内容,而另一些数据 则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据
Page 6
英语标识 大小 Bit Byte KB MB GB TB PB EB ZB YB 1或0 8Bit 1024KB 1024MB 1024GB 1024TB 1024EB 1024ZB 1024YB
例子 一个二进制数位:0或1 一个英文字母:8Bit 一首普通MP3的歌曲:4MB 一部电影:1GB 美国国会图书馆所有登记印刷版书本的消息:15TB 2011年底,其网络备份的数据量为280太字节 美国邮政局一年处理的信件大约为5拍 谷歌每小时处理的数据为1拍 相当与13亿中国人人手一本500页的书加起来 截止2010年,人类拥有的信息总量大概是1.2ZB 超出想象
需要;存储、计算、分析合一的系统成为必然的需求、趋势
“大数据”的本质不在于更多(更快)的数据,而在于对数据中 蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中 所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生 产业务的开展过程
大数据是淘炼黄金而不是制造更多的石头
“Big Data is nothing without Big Analysis”
势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采, 发现数据之下的历史规律,对未来进行预测。
Page 25
大数据的分析挖掘技术
• 技术方法分类
根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型 发现、异常和趋势发现等等 根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异 质数据库、遗产数据库以及环球网Web 根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。
HBase Streaming HDFS
– 分布式文件系统HDFS(hadoop Distributed File System) – 并行数据处理MapReduce – 非结构化数据表HBase – 流式数据处理Streaming
Page 17
MapReduce 分布式数据处理架构
DATA
输入
分组
一份数据1次存储,节省空间67% 一份数据0次拷贝,提升效率2倍
Page 24
大数据 的 其他技术
数据仓库 数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致
的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人 力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成
Page 26
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 27
数据挖掘(DM) 与 知识发现(KDD)
• 顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息 • 数据挖掘技术投入商用的三种基础技术已发展成熟 › (1)海量数据搜集 › (2)强大的分布式并行处理技术 › (3)数据挖掘算法 • 知识发现(KDD):从源数据中发掘模式或联系的方法 • KDD被用来描述整个数据发掘的过程, 包括最开始的制定业务目标到最终的结果分析,而用 数据挖掘(DM, Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。 • 数据挖掘所发现的知识有以下四类: › 广义知识: 指类别特征的概括性描述知识 › 关联知识:反应一个事件和其他时间之间依赖或关联的知识 › 分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识 › 预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。
Page 28
数据挖掘流程及方法模型
Page 29
数据挖掘的技术
技术分类
预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律
数据挖掘技术
关联分析 序列模式 分类(预言) 聚集 异常检测
Page 30
关联

关联规则挖掘:
Rows
“<html></html >” “<html></html >” “<html></html>” t3 t2 t1

timestamps

……
Column Family
Page 20
Tablelet
Streaming:流式数据处理---Storm
医疗大数据及相关技术介绍
翟运开
博士/副教授
河南省数字医疗工程技术研究中心 副主任 数字化远程医疗服务河南省工程实验室 副主任 郑州大学第一附属医院 河南省远程医学中心 中国卫生信息学会远程医疗信息化专业委员会 主任 常委/秘书长
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 2
摩尔定律,正在走向终结
数据 污染

滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 含有各种噪声 格式标准化 异常数据清除 错误纠正 重复数据的清除
数据 处理
Page 22
大数据 的 存储技术
结构化数据: 传统的关系数据模式 海量数据的查询、统计、更新等操作效率低

重点技术
可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的 量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
联机分析 联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析; “维”是
联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问 题,用户能根据自己的需要,随时创建“万维”动态报表
数据挖掘 通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋
巨大的数据价值
Page 11
目录
大数据简介 大数据相关技术
大数据挖掘
大数据平台
Page 12
大数据与云计算、物联网、互联网之间的关系
大数据是对海量数据的高效处理。 云计算是硬件资源的虚拟化,是大 数据分析的支撑平台。
云计算
处理分析
产生海量数据
物联网
来源:《互联网进化论》
移动互联 网
传统互联 网
Page 13
非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
Page 23
存储与分析融合,提升处理效率
数据生产
数据共享
数据分析
数据生产
数据共享
数据分析
导入存储
拷贝
共享存储
拷贝
分析存储
存储资源池
一份数据3次存储,浪费空间67% 一份数据2次拷贝,浪费时间2倍

在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁 模式、关联、相关性、或因果结构。
二者都买 的客户 买尿布的客 户

应用:

购物篮分析、交叉销售、产品目录设计、
loss-leader analysis、聚集、分类等。
买啤酒的客户
Page 31
序列
序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排 列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找 出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制
聚合
X86 服务器
计算 (IOE架构)
输出
X86 服务器
结果 传统方式
Page 18
HDFS 分布式文件系统架构
Hadoop 集群
Page 19
HBase NoSQL数据库
HBase的数据模型
分布式的多维映射,以(row, column, timestamp)索引
Columns
“contents:” “anchor: ” “anchor:google”
Page 4
大数据时代正在来临…
1000+PB
24亿网民1天产生的数据
63%
GAGR
非结构化数据增长率
30+TB
交易量3000+万笔/天
1PB/S
CERN:核爆产生数据的速度
数据摩尔定律:Y=C×2X
X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量
相关主题