医学元数据标准
什么是元数据
例如,在一个大型的医疗卫生机构, 例如,在一个大型的医疗卫生机构,拥有一个专门的数据资料 管理机构,来统一管理各类需要提交和归档的数据资料。 管理机构,来统一管理各类需要提交和归档的数据资料。 这些要统一入库归档的数据各不相同: 这些要统一入库归档的数据各不相同: 从数据内容来看,可能有管理类、业务类和科学研究类; 从数据内容来看,可能有管理类、业务类和科学研究类; 从学科来看,可能有基础医学、临床医学、预防医学等等; 从学科来看,可能有基础医学、临床医学、预防医学等等; 从存储类型来看,可能有DBase、EXCEL、文本文件等等; 从存储类型来看,可能有DBase、EXCEL、文本文件等等; DBase 总之,内容、结构、数据量、介质各不相同。 …… 总之,内容、结构、数据量、介质各不相同。
国家科技基础条件平台
医药卫生科学数据共享网
SN:MSDS演示序号: SN:MSDS-S-20071117 演示序号:04
元数据标准介绍
医药卫生科学数据共享标准规范课题组 2007年11月17日 2007年11月17日
介绍提纲
• 什么是元数据 • 医药卫生元数据标准介绍
什么是元数据
元数据(Metadata) 元数据(Metadata): 是关于数据的数据( 是关于数据的数据(Data about data). 简单来说,元数据对于数据来说,类似于一个人的名片,或者 简单来说,元数据对于数据来说,类似于一个人的名片, 是一本图书馆藏书的卡片。 是一本图书馆藏书的卡片。 这个概念相对抽象,下面通过一个例子来说明, 这个概念相对抽象,下面通过一个例子来说明,什么是元数据 以及元数据标准、元数据库、元数据记录等等) (以及元数据标准、元数据库、元数据记录等等) ?
医药卫生元数据标准介绍 类型实体: 类型实体:引用信息
是前面的根实体和子集中被多次用到的内容, 是前面的根实体和子集中被多次用到的内容,例如联系信 息(固定包含详细地址、电话等)、地址信息(固定包含行 固定包含详细地址、电话等)、地址信息( )、地址信息 政区划、城市、邮政编码等)等等, 政区划、城市、邮政编码等)等等,在填写时都会被集成化 的多次用到,所以被打包定义为一个数据类型。 的多次用到,所以被打包定义为一个数据类型。 它是一种对填写的参考、帮助或者说附录性补充内容, 它是一种对填写的参考、帮助或者说附录性补充内容,不 是元数据内容的组成部分。 是元数据内容的组成部分。
医药卫生元数据标准介绍 • 制订背景与方法—领域专用元数据标准 制订背景与方法—
共享核心元数据 共享元数据标准 共享公共元数据 共享参考元数据 领域元数据标准 扩展参考 必须包含
领域专用 元数据标准
领域专用元数据标准
领域元数据标准
工作基础
科技部国家科学数据共享工程的《元数据标准化原则与方法》 科技部国家科学数据共享工程的《元数据标准化原则与方法》 中规定了领域专用元数据制订时的选取原则。 中规定了领域专用元数据制订时的选取原则。
什么是元数据
当我拿着自己的数据光盘去入库归档的 时候, 时候,管理员要求我填写一张关于要入 库数据的表格,以便于管理和查阅。 库数据的表格,以便于管理和查阅。 填好这张关于要入库光盘的表格, 填好这张关于要入库光盘的表格,就是 这张光盘中数据的元数据! 这张光盘中数据的元数据! 而这一张表格所规定的要填写的内容 以及填写规定), ),就可以看作是这个 (以及填写规定),就可以看作是这个 单位内部的“元数据标准” 单位内部的“元数据标准”!
医药卫生元数据标准介绍 • 元数据标准内容—子集概述 元数据标准内容—
8) 限制信息 提供了元数据或数据集的限制信息。 提供了元数据或数据集的限制信息。包括法律限 访问限制、使用限制、安全限制、 制、访问限制、使用限制、安全限制、安全限制分级 个子元素。 5个子元素。 9) 维护信息 元数据或数据集内容更新信息维护信息。 元数据或数据集内容更新信息维护信息。包括有 关资源的更新频率、更新范围、维护注释、 关资源的更新频率、更新范围、维护注释、维护方联 系信息4个子元素。 系信息4个子元素。
什么是元数据
我们把这张表格中所规定填写的项目, 我们把这张表格中所规定填写的项目, 作为一个一个的属性字段, 作为一个一个的属性字段,可以建立一 个关于元数据的数据库——— ———就是元数 个关于元数据的数据库———就是元数 据库: 据库:
这张表格每填写好一张, 这张表格每填写好一张,就可以录入成 为元数据库中的一条元数据记录: 为元数据库中的一条元数据记录:
实体集信息 元数据子集
类型实体 引用信息) (引用信息)
医药卫生元数据标准介绍 • 元数据标准内容--基本架构 元数据标准内容---基本架构
我们也可以把这个抽象的模型 定义了 理解为: 理解为: 元数据 医药卫生科学数据共享所要求 基本架 填写的那张“元数据登记表”, 填写的那张“元数据登记表构、9 ” 个子集 除了几个基本信息( 除了几个基本信息(元数据根 和154 元素) 元素)外,其填写内容大致分 个子元 个方面。 为9个方面。 素。
前言 引言、 引言、范围 引用文档、 引用文档、概念术语 元数据(内容) 元数据(内容) --根实体 --根实体 --子集 多个,依次介绍) 子集( --子集(多个,依次介绍) 元数据类型实体 --引用信息 --引用信息 (科学数据共享元数据还 包含覆盖范围信息) 包含覆盖范围信息)
医药卫生元数据标准介绍 • 元数据标准内容--基本架构 元数据标准内容---基本架构
与科学数据共享元数据标准的对照
领域元数据标准( 领域元数据标准(例 如医药卫生科学数据 共享元数据标准)就 共享元数据标准) 是根据《 是根据《科学数据共 享元数据标准》 享元数据标准》这个 标准的标准” “标准的标准”所制 定出来的产物,所以, 定出来的产物,所以, 它的内容结构相对简 如图示: 单,如图示:
什么是元数据
对医药卫生科学数据共享网来说, 对医药卫生科学数据共享网来说,针对每 一个共享数据集, 一个共享数据集,都要以元数据著录的形 式来“填写”一张这样的“表格” 式来“填写”一张这样的“表格”。
这时候,这张“表格”上规定的内容, 这时候,这张“表格”上规定的内容,以 及关于填写的一些规定, 及关于填写的一些规定,就可以看作是 医药卫生科学数据共享网元数据标准》 《医药卫生科学数据共享网元数据标准》
医药卫生元数据标准介绍 • 元数据标准内容—子集概述 元数据标准内容—
标识信息 内容信息 分发信息 数据质量信息 数据表现信息 扩展信息 数据模式信息 限制信息 维护信息
医药卫生元数据标准介绍 • 元数据标准内容—子集概述 元数据标准内容—
1) 标识信息 提供了标识数据集的信息。包括数据集引用、摘要、 提供了标识数据集的信息。包括数据集引用、摘要、目的 、 可信度、状态、负责方、维护信息、浏览图、关键词说明、 可信度、状态、负责方、维护信息、浏览图、关键词说明、限 制信息、语种、字符集、分类和环境说明14个子元素。 14个子元素 制信息、语种、字符集、分类和环境说明14个子元素。 2) 内容信息 提供了数据内容特征的描述信息。包括数据的资源域、 提供了数据内容特征的描述信息。包括数据的资源域、领 域特征、获取手段、描述对象和服务内容5个子元素。 域特征、获取手段、描述对象和服务内容5个子元素。
医药卫生元数据标准介绍 • 参考性引用文件及一些概念
XXX— SDS/T XXX—2004 科学数据共享元数据内容标准 DICOM 数字化影像和通讯标准 ICD国际疾病分类代码第10 10版 ICD-10 国际疾病分类代码第10版 CPT 通用操作术语代码 SNOMED 医学系统化术语学系统 LOINC 实验室观察结果标识符名称和代码系统 DRGs 诊断相关分组 UMLS 统一的医学语言系统 IMT 国际医学术语
手手手手 手手手手 : 手手手手手手 手t;实实>>
医医
<<实实>>
医医
<<实实>>
医医
医药卫生元数据标准介绍 • 元数据标准内容
1.范围 1.范围 2.规范性引用文件 2.规范性引用文件 3.一致性要求 3.一致性要求 4.术语和定义 4.术语和定义 5.符号与约定 5.符号与约定 6.元数据模型 6.元数据模型 7.元数据摘要描述 7.元数据摘要描述 附录:元数据 UML UML图 附录:元数据—UML图 元数据—字典描述 元数据 字典描述
医药卫生元数据标准介绍 • 元数据标准内容—子集概述 元数据标准内容—
3)分发信息 3)分发信息 提供了有关资源分发的信息。包括分发格式、 提供了有关资源分发的信息。包括分发格式、 分发者、传送方式3个基本内容。 分发者、传送方式3个基本内容。 4)数据质量信息 4)数据质量信息 提供了数据集质量总体评价信息。 提供了数据集质量总体评价信息。包括数据志 和数据志说明2个基本内容。 和数据志说明2个基本内容。
介绍提纲
• 什么是元数据 • 医药卫生元数据标准介绍
医药卫生元数据标准介绍
• 制订背景与方法 • 参考性引用文件及一些概念 • 元数据标准内容
医药卫生元数据标准介绍 • 制订背景与方法
科技部国家科学数据共享工程的《元数据标准化原则与方法》 科技部国家科学数据共享工程的《元数据标准化原则与方法》 中规定了科学数据共享工程中领域元数据标准的制订方法: 中规定了科学数据共享工程中领域元数据标准的制订方法:
与科学数据共享元数据标准的对照
科学数据共享元数 据标准是一个用来 制订元数据标准的 共享核心元数据 标准, 标准,是一个标准 共享公共元数据 的标准。 的标准。 它的内容如右侧的 目录所示: 目录所示: 共享核心元数据的内容会在共享公共元数据的相应位置再次出现
共享参考元数据 共享公共元数据的内容也会在共享参考元数据的相应位置再次出现
共享元数据标准 领域元数据标准 领域专用元数据标准