元数据标准介绍(精)
什么是元数据
例如,在一个大型的医疗卫生机构,拥有一个专门的数据资料
管理机构,来统一管理各类需要提交和归档的数据资料。 这些要统一入库归档的数据各不相同:
从数据内容来看,可能有管理类、业务类和科学研究类;
从学科来看,可能有基础医学、临床医学、预防医学等等;
从存储类型来看,可能有DBase、EXCEL、文本文件等等;
…… 总之,内容、结构、数据量、介质各不相同。
什么是元数据
当我拿着自己的数据光盘去入库归档的 时候,管理员要求我填写一张关于要入
库数据的表格,以便于管理和查阅。
填好这张关于要入库光盘的表格,就是 这张光盘中数据的元数据! 而这一张表格所规定的要填写的内容 (以及填写规定),就可以看作是这个 单位内部的“元数据标准”!
提供了数据内容特征的描述信息。包括数据的资源域、领 域特征、获取手段、描述对象和服务内容5个子元素。
医药卫生元数据标准介绍 • 元数据标准内容—子集概述
3)分发信息 提供了有关资源分发的信息。包括分发格式、 分发者、传送方式3个基本内容。 4)数据质量信息
提供了数据集质量总体评价信息。包括数据志
和数据志说明2个基本内容。
什么是元数据
我们把这张表格中所规定填写的项目, 作为一个一个的属性字段,可以建立一 个关于元数据的数据库———就是元数 据库:
这张表格每填写好一张,就可以录入成 为元数据库中的一条元数据记录:
什么是元数据
对医药卫生科学数据共享网来说,针对每 一个共享数据集,都要以元数据著录的形 式来“填写”一张这样的“表格”。
医药卫生元数据标准介绍 • 元数据标准内容—子集概述
5) 数据表现信息 提供了数据集的数据表示信息。包括医学数字图象、 疾病GIS分布2个子元素。 6) 扩展信息 提供了领域定义的元数据信息。包括扩展在线资源 信息和扩展元素信息2个子元素。 7) 数据模式信息
提供了有关数据集概念模式的信息。包括名称、模式 语言、约束语言、ASCII码文件和图形文件5个子元素。
缩写名和域代码
定义 约束/条件
最大出现次数
数据类型 域:就实体而言,域说明实体包含的行数;对一个元数 据元素而言,域说明允许的值或使用自由文本。
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
• 字典表示示例
医药卫生元数据标准
介绍完毕,谢谢!
这时候,这张“表格”上规定的内容,以 及关于填写的一些规定,就可以看作是 《医药卫生科学数据共享网元数据标准》
介绍提纲
• 什么是元数据 • 医药卫生元数据标准介绍
医药卫生元数据标准介绍
• 制订背景与方法 • 参考性引用文件及一些概念
• 元数据标准内容
医药卫生元数据标准介绍 • 制订背景与方法
科技部国家科学数据共享工程的《元数据标准化原则与方法》
0..n
+元数据扩展信息
+数据质量信息
0..n 维护信息
(from 维护信息)
+元数据维护 0..1 分发信息
(from 分发信息)
0..n +数据集维护信息
+分发信息 0..n
<<抽象>> 内容信息
(from 内容信息)
+内容信息 0..n
元数据 元数据标识符[0..1] : 字符串 元数据语种[0..1] : 字符串 元数据字符集[0..1] : 字符集代码 元数据联系方[1..n] : 负责方 元数据创建日期 : 日期引用 元数据标准名称[0..1] : 字符串 元数据标准版本[0..1] : 字符串
元数据
(from 元数据实体集信息)
元数据子集
+数据表现信息 0..n <<抽象>> 数据表现信息
医学影像表示
疾病三间分布表示
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
引用信息
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
③元数据元素字典描述
元数据元素字典描述主要由以下内容对元数据进行描述 名称/角色名称
医药卫生元数据标准介绍 类型实体:引用信息
是前面的根实体和子集中被多次用到的内容,例如联系信
息(固定包含详细地址、电话等)、地址信息(固定包含行 政区划、城市、邮政编码等)等等,在填写时都会被集成化 的多次用到,所以被打包定义为一个数据类型。
它是一种对填写的参考、帮助或者说附录性补充内容,不
据元素进行摘要描述.
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
元数据元素摘 要描述示例
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
②元数据元素UML图描述方法
本标准采用统一建模语言(UML)来进行模型构建。 应用UML 中包、类和属性的概念。医药卫生科学数据共
享元数据分为三个层次,与UML对应关系如下:
共享参考元数据 共享公共元数据的内容也会在共享参考元数据的相应位置再次出现
与科学数据共享元数据标准的对照
领域元数据标准(例 如医药卫生科学数据 共享元数据标准)就 是根据《科学数据共 享元数据标准》这个 “标准的标准”所制 定出来的产物,所以, 它的内容结构相对简 单,如图示:
前言 引言、范围 引用文档、概念术语
医药卫生元数据标准介绍
• 参考性引用文件及一些概念
元数据元素 metadata element 元数据的基本单元。 注:与UML术语中的属性同义。
元数据实体 metadata entity 一组说明数据相同特性的元数据元素。 注:与UML术语中的类同义。 元数据子集 metadata section 元数据的子集合,由相关的元数据实体 和元素组成。 注:与UML术语中的包同义。
SDS/T XXX—2004 科学数据共享元数据内容标准 DICOM 数字化影像和通讯标准 ICD-10 国际疾病分类代码第10版 CPT 通用操作术语代码 SNOMED 医学系统化术语学系统 LOINC 实验室观察结果标识符名称和代码系统 DRGs 诊断相关分组 UMLS 统一的医学语言系统 IMT 国际医学术语
元数据(内容) --根实体 --子集(多个,依次介绍) 元数据类型实体 --引用信息 (科学数据共享元数据还 包含覆盖范围信息)
医药卫生元数据标准介绍 • 元数据标准内容--基本架构
实体集信息 元数据子集
类型实体 (引用信息)
医药卫生元数据标准介绍 • 元数据标准内容--基本架构
我们也可以把这个抽象的模型 定义了 理解为: 元数据 医药卫生科学数据共享所要求 基本架 构、9 填写的那张“元数据登记表”, 个子集 除了几个基本信息(元数据根 和154 元素)外,其填写内容大致分 个子元 为9个方面。 素。
共享核心元数据 共享元数据标准 共享公共元数据 共享参考元数据 领域元数据标准
必须包含
扩展参考
领域专用 元数据标准
领域专用元数据标准
领域元数据标准
工作基础
科技部国家科学数据共享工程的《元数据标准化原则与方法》 中规定了领域专用元数据制订时的选取原则。
医药卫生元数据标准介绍 • 参考性引用文件及一些概念
UML包——元数据子集 UML类——元数据实体 UML类属性——元数据元素
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
<<抽象>> 数据表现信息
(from 数据表现信息)
元 数 据 子 集 信 息
+数据表现信息 数据质量信息
(from 数据质量信息)
0..n
元数据扩展信息
(from 元数据扩展信息)
国家科技基础条件平台
医药卫生科学数据共享网
SN:MSDS-S-20071117 演示序号:04
元数据标准介绍
医药卫生科学数据共享标准规范课题组 2007年11月17日
介绍提纲
• 什么是元数据 • 医药卫生元数据标准介绍
什么是元数据
元数据(Metadata): 是关于数据的数据(Data about data). 简单来说,元数据对于数据来说,类似于一个人的名片,或者 是一本图书馆藏书的卡片。 这个概念相对抽象,下面通过一个例子来说明,什么是元数据 (以及元数据标准、元数据库、元数据记录等等) ?
+标识信息 元数据标识
(from 标识信息)
0..n +元数据限制信息 0..n +应用模式信息 数据模式信息
(from 数据模式信息)
+数据集限制信息 限制 0..n
(from 限制信息)
医药卫生元数据标准介绍 • 元数据标准内容—描述方式
8)元数据限制信息 5) 6) 7) 元数据表现信息 元数据扩展信息 元数据模式信息 9) 元数据维护信息 1) 2) 4) 3) 元数据标识信息 元数据内容信息 元数据质量信息 元数据分发信息
医药卫生元数据标准介绍 • 元数据标准内容—子集概述
8) 限制信息
提供了元数据或数据集的限制信息。包括法律限 制、访问限制、使用限制、安全限制、安全限制分级 5个子元素。 9) 维护信息 元数据或数据集内容更新信息维护信息。包括有 关资源的更新频率、更新范围、维护注释、维护方联 系信息4个子元素。
<<实体 >>
医生
<<实体 >>
医生
<<实体 >>
医生
医药卫生元数据标准介绍 • 元数据标准内容
1.范围
2.规范性引用文件 3.一致性要求 4.术语和定义 5.符号与约定 6.元数据模型 7.元数据摘要描述 附录:元数据—UML图
元数据—字典描述
与科学数据共享元数据标准的对照
科学数据共享元数 据标准是一个用来 制订元数据标准的 共享核心元数据 标准,是一个标准 共享公共元数据 的标准。 它的内容如右侧的 目录所示: 共享核心元数据的内容会在共享公共元数据的相应位置再次出现