基于信息生命周期管理三维模型的存储体系架构的 研究与应用郝静 1,王红梅 2,白中英 11 北京邮电大学计算机科学与技术学院,北京 (100876) 2 中国气象局国家卫星气象中心,北京 (100081)E-mail:haojing7160@摘 要: 本文在信息生命周期管理概念的基础上设计出信息生命周期管理的三维模型, 对此 三维模型从信息周期阶段(创建、采集、组织、存储、利用、清理)、信息应用层次(存储 层、管理层、服务层)和系统体系架构层次(存储硬件设备、SAN 存储网络、存储高可用、 在线数据共享、数据生命周期管理、备份/恢复和灾备与异地永久存档)三个不同角度进行 详细阐述, 并总结出信息生命周期管理三维模型实施的简单流程。
在此基础上构建了某卫星 地面应用系统中数据存档和服务系统的存储体系架构, 信息生命周期管理三维模型的理念在 存储领域得以更充分的体现。
关键词:信息生命周期管理;存储区域网络;分级存储管理;卫星地面应用系统 中图分类号:TP302.11 引言信息化时代,信息的积累呈几何级数增长,面对海量的信息,如何进行存储,如何进 行管理,使之发挥最大价值,越来越成为人们关心的问题,信息生命周期管理(Information Lifecycle Management, ILM) 理念的提出成为一个必然的趋势。
信息生命周期管理是 Storage Tek 公司针对不断变化的存储环境推出的先进的存储管理理念[1]。
信息是有生命的,它的生 命周期是从信息的创建、采集、组织、存储和利用,到清理的过程。
处于不同阶段的信息其 价值是不同的,应该根据信息在不同生命阶段的不同价值,进行有效的存储和管理,从而实 现将适当的数据、在适当的时间、以适当的费用存储在适当的设备上[2]。
ILM 不是一个新的 存储解决方案,也不是某个硬件或软件产品,而是评估和管理信息的存储方式,是一种信息 管理模型,贯穿信息整个生命对其进行管理,从创建和使用到归档和处理,从而在信息的每 个阶段都能以最低的成本获得信息的最大效益。
ILM 的核心是针对不同数据的不同阶段, 采用不同的存储策略和存储介质[3]。
在卫星地面应用系统项目中,数据存档和服务系统负责 所有卫星数据和产品的存储管理、备份和应用服务,如何合理地存储和有效地管理数据,为 业务系统和应用系统提供高质量的数据服务,成为设计的一个重点问题。
本文在对 ILM 思 想的理解基础上,提出三维模型,并将其应用于基于 SAN 网络的数据存档和服务系统中。
-1-2 信息生命周期管理的三维模型图1信息生命周期管理三维模型示意图信息生命周期管理三维模型(TD-ILM)如上图所示,X 轴方向为信息周期阶段,Y 轴 方向为信息应用层次,Z 轴方向为系统体系架构层次。
2.1 X 轴信息周期阶段根据信息运动的特点,TD-ILM 在 X 轴信息周期阶段上可分为六个部分,按时间顺序 分别是创建、采集、组织、存储、利用和清理。
根据处理过程所使用的方法不同,气象卫星数据分为四个等级,去除通信传输同步码、 重复信息及质量检验的卫星仪器原始分辨率数据、 卫星工程参数为 0 级数据; 级数据分 1A 1 和 1B 两种数据等级,1A 为在 0 级数据上附加辐射定标、地理定位信息等;1B 为对 1A 数 据进行处理生成各仪器通道反射率和辐射率,空间分辨率保持不变。
经过处理的遥测值,反 映设备工作状态的物理量为 1 级数据;对 1B 数据进行处理生成的各种产品,包括各种地球 物理参数、基本图像产品、环境监测产品、灾情监测产品等为 2 级数据;在 2 级数据基础上 生成的侯、旬、月格点产品和其它分析产品等为 3 级数据。
气象卫星数据经创建、采集、组织成产品或资料等,从数据存储管理的角度分析,气 象卫星资料可划分为结构化数据和非结构化数据。
结构化数据指经提取的、 能够对某具体的 数据对象进行描述的关系型数据,如遥测数据、平台数据、元数据等;非结构化数据主要是 指原始资料和产品数据集, 这些数据不能采用结构化的数据格式进行存储, 只能以数据文件 形式进行存储。
按数据访问频率的高低将其存放于一级或二级或三级存储介质。
卫星原始资 料 0 级数据存放于一级存储介质一周,一级数据为一个月,其他产品为两个月。
二级存储介 质上的数据存储时间为一年。
依据数据的等级采用不同的数据保护措施如备份技术、 复制技 术等。
利用阶段可以用迁移或回调技术实现对一级存储介质、 二级存储介质或者三级存储介 质数据的访问和利用,清理阶段将没有价值的数据进行回收或者销毁。
2.2 Y 轴信息应用层次TD-ILM 模型在 Y 轴信息应用层次上可分为三个层次,由低到高分别是信息存储层、 信息管理层、信息服务层。
信息存储层主要解决信息存储和保存方式的问题。
信息管理层确 保信息能在需要的时候发挥应有的价值。
信息服务层确保能够在特定的需求下提供可靠的及 时的信息。
-2-2.2.1信息存储层图2信息存储层示意图分级存储管理(Hierarchical Storage Management,HSM)是一种将在线存储与离线存 储融合的技术[4]。
分级存储按照存储时间的要求可分为在线存储、近线存储和离线存储。
最 重要的信息需要实时的存储和最高级别的恢复,对应的是在线存储。
次要的一些信息,则可 以用大容量的磁盘或磁带库进行近线存储, 在时间和安全性的要求上低于在线存储。
离线存 储则是保存不经常使用的数据,通常使用磁带或光盘存储[5]。
由于信息价值和服务等级的要求在整个生命周期内不断变化,各种存储系统中必须要 求一个能够动态地将信息迁移到适当服务等级的存储资源的功能, 并且对于使用它的应用程 序和业务过程以透明的方式完成此操作,数据迁移工具就是用来解决此问题的。
目前,信息的存储环境已经不是这么简单的了,不同存储厂商的异构硬件平台,以及 不同功能的存储软件实现数据的存储、备份、恢复、归档;系统内不同分支系统地理位置的 差异;不同分系统的纵向划分;这些因素导致了数据的分散和平台的不统一。
因此,采用存 储区域网络(Storage Area Network,SAN)技术构建网络化、易扩展的存储系统,实现分层 的网络存储体系, 从而达到对数据的集中管理, 这是实施信息生命周期管理不可或缺的一步。
2.2.2 信息管理层 为保证不同级别存储的信息能够在需要的时候发挥出其应有的价值,必须从管理层次 上考虑信息的安全性、访问服务的及时性,以及对冗余数据的处理等问题。
为保证信息的安 全性,可采用备份、快照、镜像等手段,加上人为的复制,这中间难免有冗余的副本,需要 在存储过程中优化信息。
2.2.3 信息服务层 建立专业数据库、提供专业信息导航、创建新型网络信息查询检索浏览器、建立镜像 信息站点等途径可以对数据高效利用。
对服务层的信息,根据需要进行价值重申,并为信息 的存储和管理制定新的策略。
此外信息既有显性价值也有隐性价值,挖掘信息的潜在价值, 这也是信息生命周期管理的重要意义之一。
2.2.4 卫星地面应用系统中数据存档和服务系统存储体系架构图3卫星地面应用系统三级存储体系架构 -3-卫星地面应用系统在线、近线、离线三级存储体系架构如图 3 所示,数据存档和服务 系统中采用磁盘阵列作为在线存储区,将其划分为不同的物理分区:各系统私用区、数据库 库体区、业务系统数据区和数据滚动存储区,分别用来保存不同的资料、产品、控制文件、 系统参数文件等。
这些物理分区以逻辑卷和文件系统方式进行管理, 可以实现在线逻辑卷划 分,动态文件系统调整,并且实现文件级共享。
近线存储采用大型自动磁带库构成,库中可 联机存放上千盘磁带。
将磁带库划分为若干存储池,每个存储池可动态定义若干盘磁带。
按 照卫星种类、生产系统、数据类别将数据分类存入事先定义的存储池中。
根据数据的使用频 次与时间,采用 LRU(Least Recently Used)算法进行迁移管理。
将最近最少使用的数据从 近线磁带库迁移到磁带仓库中,离线保存,以腾出带仓空间,用以存档新的数据。
离线数据 管理规则采用将磁带离线后的信息(比如柜名、层数、列数)记入数据库中,以便使用时快 速找到数据所在磁带的位置。
对因超出磁带库容量而出库的磁带,进行上架管理:提取磁带 介质号、磁带启用时间、出库时间、磁带使用次数、带架号、原卷池名、数据类别、存档数 据拷贝份数等内容,同样记录于数据库表中。
在信息管理层,基于 SAN 网络建立虚拟存储管理系统,自动实现不同层次存储设备之 间的数据自动迁移管理,提供数据透明访问。
在信息服务层,建立基础信息库,对经过预处理的卫星资料提取元数据信息,进行编 目存档管理。
建立专题数据库,对气候产品、灾害监测产品等进行分类存储。
对产品文件生 成快视图像文件,提取元数据信息,分类编目存档,长期保存。
分类建立要素库、报告库、 公告库等子库,对常规观测资料及数值预报产品进行在线存储管理,并提供交互检索、程序 检索接口。
卫星地面应用系统中数据存档和服务系统具体表现为数据层、应用层和表现层, 如图 4 所示。
图4数据存档与服务系统软件分层模型2.3Z 轴系统架构层次TD-ILM 模型在 Z 轴系统体系架构支撑层次上可分为七个层次,由低到高分别是存储硬件设备、SAN 存储网络、存储高可用、在线数据共享、数据生命周期管理、备份/恢复和 灾备与异地永久存档。
-4-图5卫星地面应用系统 SAN 架构示意图卫星地面应用系统采用 SAN 技术构建数据存档和服务系统的存储网络。
服务器与存储 设备之间、存储设备与存储设备之间通过光纤通道(Fiber Channel)、光纤交换机和集线器 连接在一起,组成一个高速的存储局域网[6] ,如图 5 所示。
系统体系架构层次如 TD-ILM 模型的 Z 轴。
硬件设备诸如服务器(IBM P570/550)、磁盘阵列(HDS)、磁带库(IBM)、 磁带机、光纤交换机,在此基础上构建连接存储设备和服务器的 SAN 网络使其作为基础设 施。
操作系统(IBM AIX5.3)构建在基础设施之上,控制和管理其下层的硬件资源和上层 的软件资源。
高可用集群管理软件(HACMP 5.2)、负载均衡软件(LSF)、文件系统共享 软件(GPFS)、系统运行监视软件等系统级管理软件运行在操作系统之上,为上层数据级 数据管理软件和数据管理应用软件提供安全可靠的集群、共享网络运行环境。
Sybase 数据 库软件、IBM TSM(Tivoli Storage Manager)存储软件等数据管理软件运行在系统级管理软 件之上,对 SAN 存储设备进行管理,实现数据在不同载体上的转储和集中化管理。