当前位置:文档之家› 中科软如何开始医疗卫生大数据平台建设

中科软如何开始医疗卫生大数据平台建设


信号检测-预警设置
19
信号检测-信号结果
放大区域
手足口预警
• 时间序列方法 1
• 基准区域去年3块,今年2块(含当前块); • S=基准区域5块发病率的标准差; • R(报告单元)=报告日期报告单元发病率-基准区域5块发病平均率; • R(报告单元)> 2S,认为超出警戒线,若R(报告单元)>3S,认为超出控制线,预警。
IF ADR描述 = A AND ADR描述 <> B ADR名称 = “过敏样反应” ELSE IF ADR描述 = C AND 治疗 包含 D
主题建立与模型选择
• 关注点
• 指标的统计学意义 • 算法 • 测试、评估
主题建立与模型选择 - 登革热多因素分析
1. 本地感染病例
2. 输入性病例
3. 蚊媒布雷图指 数
• 空间局部聚集性探测(local Moran’I 模型)
技术实施
• 硬件:层次分明,保持各层扩展性 • 平台软件
• Hadoop?传统数据库? • 批处理?实时处理? • 云环境?
验证、部署执行与反馈
• 验证
• 回顾性验证 • 参数计算(例如通过ROC曲线)
• 部署执行
• 效率与监控 • 优化配置
• 时间序列方法 2
• 令当前时间为T,横坐标是报告日期(T-365 ~ T-1),纵坐标是基准区域发病数y(7 天);
• (a0+a1x+a2x2+a3x3= )多项式生成拟合趋势线,用最小二乘算法确定多项式系数; • R(T-365 ~ T-1)=报告日期报告单元发病数-*报告单元人口数/基准区域人口数; • 所有R(T-365 ~ T-1)的标准差S; • R(T)> 2S,认为超出警戒线,若R(T)>3S,认为超出控制线,预警。
1. 当前应用系统 2. 当前应用系统 +( )以数据利用为主的大数据相关系统 3. 以大数据平台为基础的应用系统
医疗卫生大数据平台整体框架
大数据应用 (症候群异常分析)
大数据应用 (疾病分期分析)
医疗卫生大数据平台ຫໍສະໝຸດ 数据采集预处理/标准化
元数据标注
……
数据交换共享
大数据基础平台
数据分析工具
分布式数据库(Hbase,Hive,Shark等)
• 更多:不是随机样本,而是全体数据 • 更杂:不是精确性,而是混杂性 • 更好:不是因果关系,而是相关关系
数据科学在医疗卫生技术支撑体系中的作 用
服务于行业 创新发展
标准 规范
服务于政府 风险管理
监测 预警
评估 研判
人才团队
基础 研究
信息 技术
数据科学
服务于公众 科普宣教
风险 交流
向大数据平台迈进
中科软如何开始医疗 卫生大数据平台建设
医疗卫生业务范围
中科软科技股份有限公司
长期专注于医疗卫生行业信息化 的研究,经过多年信息化建设经 验的积累,拥有全方位的专业咨 询服务和富有创造力的专业研发 团队,从业务咨询、顶层设计、 项目承建到整体优化改造,能够 为客户提供全方位、全流程的卫 生信息化服务
分布式批量处理框架(MapReduce)
分布式实时处理框架(Spark)
分布式内存存储系统(Tachyon)
分布式文件存储系统(HDFS等)
传统 关系 型数 据库
基础设施(网络、服务器、存储、云环境等)
目标定义
规划
接入
预处理
主题
建模
反馈
起步目标
• 业务上:要有清晰、具体的工作目标 • 环境上:基本覆盖大数据平台整体框架中的各层 • 数据上:从接入、整理到产出的完成流程 • 范围上:时间、空间、人群、业务分类
4. 平均相对湿度 5. 累积降水量 6. 平均气压
定性分析结果
最终结果
预警
定量分析结果
登革热多因素分析 – 定性
单变量logistic分析
病例的发病风险评估
筛选最优滞后期变量
求发病率
共线性分析 对影响变量进行分组
最优模型 多变量logistic分析
登革热多因素分析 – 定量
单变量负二项回归


大数据不在于实现的技术手段多么高深,也不在 于掌握多么复杂的分析方法,而在于我们是不是具有 大数据的思路。
感谢指导!
卫生是我们共同的事业 我们是卫生信息化的技术力量
谢谢!
目录
• 大数据时代下的医疗卫生 • 医疗卫生大数据平台整体框架 • 如何开始逐步推进平台建设
“大数据”现象怎么形成的?
• 需要运用新理念、新技术、新方法对医疗大数据进行全生命周期的创新管理和应用 • 从而促进医疗转型、卫生管理的模式更新,全面提升卫生机构竞争力
• 大数据的核心就是预测:三个转变。
资源规划与数据处理
• 资源规划
• 数据来源与数据内容 • 数据类型、格式与标准 • 数据生产环境的影响(例如抽样,周期) • 数据生命周期
• 数据处理
• 非结构化数据的结构化处理(例如电子病历中症状处理) • 数据预处理模型(占总工作量50%~80%) • 数据加工流程
数据处理 -规则处理示例
A:包含“恶心、呕吐、抽搐、呼吸困难、胸闷、皮疹、面色潮红、意识模糊、 疼痛”四个字段以上 B:包含“血压低于50/80mmHg” C:包含“胸闷、心悸、喉头堵塞感、呼吸困难、脸色涨红、濒危感、口干、 头昏、面部、四肢麻木、面部苍白、烦躁不安、畏寒、冒冷汗、脉搏微弱、血 压下降(小于80/50mmHg)、意识丧失、昏迷、抽搐、大小便失禁、瘙痒、 荨麻疹及其他皮疹” 四个字段以上 D:有“肾上腺素、副肾素、多巴胺、地塞米松”治疗
筛选最优滞后期变量
SAF




多变量负二项回归

最优模型 (1-4、2月)
共线性分析
对影响变量进行分组




分流行阶段
评 估
负二项回归
最优模型 (5-11月)
登革热发生风险分析
• 分级: 1级 = 低风险(Pt≤0.05),几乎不会出现病例; 2级 = 中风险(0.5≥Pt>0.05),可能出现病例; 3级 = 高风险(Pt>0.5),极有可能出现病例。
相关主题