当前位置:文档之家› 大数据环境下的数据迁移技术研究_王刚

大数据环境下的数据迁移技术研究_王刚

Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期・1・文章编号:1007-757X(2013)05-0001-03大数据环境下的数据迁移技术研究王 刚,王 冬,李 文,李光亚摘 要:数据是信息系统运行的基础和核心,是机构稳定发展的宝贵资源。

随着信息系统数据量成几何级数增加,特别是在当前大数据环境和信息技术快速发展情况下,海量数据迁移是企业解决存储空间不足、新老系统切换和信息系统升级改造等过程中必须面对的一个现实问题。

如何在业务约束条件下,快速、正确、完整地实现海量数据迁移,保障数据的完整性、一致性和继承性,是一个关键研究课题。

从海量数据管理的角度,阐述了海量数据迁移方法,比较了不同数据迁移的方案特点。

关键词:大数据;数据迁移;存储中图分类号:TP391 文献标志码:AData Migration Technology Research Based on Big Data EnvironmentWang Gang 1, Wang Dong 2, Li Wen 3, Li Guangya 2(rmation Center of Shanghai Municipal Human Resources and Social Security, Shanghai200051, China;2. Wonders Information Co., Ltd., Shanghai201112, China;3. Shanghai Institute of Foreign Trade, Shanghai201600, China)Abstract: The data is the core resource of the information system, it is the basis of the enterprise, With the continuous of business, a geometric increase in the amount of data generated by the information system, especially in the case of current data environment and information technology. The massive data migration is a real problem. With the business constraints, the massive data migration is a key research topic, in this paper, from the point of view of the massive data management, elaborated a massive data migration me-thod, and compare the characteristics of different data migration program. Key words: Big Data; Data Migration; Storage0 引言数据一直是信息系统的基础和核心。

一方面,随着企业业务的发展,信息系统覆盖面的扩大,管理和服务精细化层度的深入,集中式的管理信息系统正在不断应运而生,各行各业都先后出现了规模庞大的数据中心。

这些数据中心经过一段时间的运行,其数据量正成几何级增长,有的甚至可以达到TB 级或PB 级。

另一方面,新的技术架构和业务操作对性能指标提出了更高的要求,而这些要求往往需要通过软件升级或者硬件更新的方式来实现,因而在新老系统的切换或升级改造过程中,势必会面临一个现实问题――数据迁移。

吕帅[1]等人从分级存储管理的角度提出了混合存储环境下的数据价值评估模型和迁移过程控制理论,提出了数据价值的精确判定。

徐燕[2]等人利用编程基础实现了异构数据库系统间的数据迁移,提出了数据迁移的抽取、转换和载入3个过程。

李喆[3]等从项目管理和方法论角度描述了企业级数据迁移的过程。

张玺[4]针对数据从磁盘到磁带的数据迁移问题,提出了并行文件处理方式。

丛慧刚[5]等人,从元数据角度,提出了数据迁移中元数据对映射模式体系,对采用源数据驱动ETL 引擎进行功能实现。

这些研究都是根据具体工程中数据迁移这个关键问题进行了研究,但是随着信息技术的发展,针对数据迁移整体管理缺少研究。

本文结合某特大型城市社会保险信息系统管理过程中大数据环境下,海量数据迁移问题进行整体分析,对可能需要大数据迁移的驱动因素和在数据迁移过程中需要关注的各类风险点进行了汇总分析,根据这些风险对数据迁移的各类方案进行分析、研究和论述,最后针对实际工作给出了实际应用。

1 数据迁移驱动分析1) 新老系统切换需要:数据作为企业的核心资源,是企业业务连续和发展的基础,因此当信息系统更新或者新老系统切换时,需要对老系统的数据进行整理,抽取,并按照新系统的业务逻辑和数据规则进行迁移,以保障业务的连续性。

2) 搬迁或数据中心合并需求:很多政府政策上的指导引发了组织结构的变化以及数据分布的改变。

一个非常有名的例子是美国的金融监管法案(Ring-Fencing Senario),这个法案要求所有的银行把数据通过几个步骤和高危投资业务进行隔离。

而这些步骤会涉及大量的结构性数据(数据库)和非结构性数据(金融交易的图像存档)的迁移。

3) 性能提升需求:由于业务的发展,企业规模的变大,——————————————基金项目:核高基重大专项课题(2009ZX01043-003-004-05);上海市教委科研创新项目(11YS205)和上海市高校“085工程”项目资助。

作者简介:王 刚(1974-)男,上海市,上海市人力资源和社会保障信息中心,工程师,本科,研究方向:计算机信息系统集成和安全管理,上海,200051王 冬(1972-)男,上海市,万达信息股份有限公司,工程师,硕士,研究方向:信息系统软件工程和数据挖掘,上海,200051 李 文(1972-)女,上海市,上海对外贸易学院,副教授,博士,研究方向:计量经济和数据挖掘,上海,200051李光亚(1973-)男,上海市,万达信息股份有限公司,教授级高工,博士,研究方向:计算机软件、系统集成、信息安全、软件工程等,上海,200051Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期・2・原有的存储无论是容量还是响应速度都无法满足现有的需求,因此企业不得不通过更换更高性能的存储来进行性能提升。

比如社保在今年年初进行的数据迁移,就是因为原有的存储的容量和性能已经无法满足现有业务系统的发展需求,因此必须进行数据的迁移。

4) 分级存储架构需求:为了解决存储成本问题,集中式大型系统多采用分级存储的设计方案,一些历史数据将定期从高性能存储环境中定期迁移到更加廉价和性能低的存储环境中,也常常带来大规模数据迁移的问题。

5) 存储整合需求:有时一个应用实例会在企业内部有多份同样的拷贝。

随着企业内部结构性数据和非结构性数据的不断增长,企业越来越希望将这些数据进行整合,以减少在存储空间上的投入。

这种需求大大推动了区域性的数据整合。

2 数据迁移策略和风险分析企业的数据在其IT 环境中均处于核心地位,同时,数据的使用者(各种硬件和软件)也非常纷繁复杂。

根据ESG (Enterprise Strategy Group 企业战略集团)的一个对700位大数据用户的回访发现,在大数据迁移时候会发生各类问题:64% 超过停机时间或导致意外宕机 51% 出现不同程度兼容性问题 38% 不同程度数据损坏38% 导致新老系统之间性能的问题 34% 不同程度数据丢失在一个典型的数据迁移场景中,会遇到各式各样的风险,其中最常见的一些高危风险归纳如下:1) 最小停机时间风险:数据迁移时间必须满足业务操作可以容忍的停机时间,同时事先必须做好完整的回退路线图。

2) 业务系统性能下降风险:存储本身是个复杂的系统,数据迁移至新设备后,需要在很多环节上加强后续监控和优化,发现信息系统存在的瓶颈,如:热盘分布、光纤通道配置等,这些环节都会影响新设备的性能发挥。

3) 数据丢失风险:大数据迁移存在数据丢失而且不能被及时发现的风险,需要有一些复杂的统计口径进行数据完整性的核对。

4) 数据不一致风险:数据库升级或应用系统升级过程中,可能会涉及数据结构的调整,因而在数据迁移时, -数据一致性问题就更为突出,需要制定严格的数据转储方案,描述数据之间的逻辑关系。

迁移后需要进行严格的数据校验。

5) 迁移失败风险:数据迁移受到很多客观因素的影响,因而在大数据的迁移过程中难免会遇到失败的风险。

需要在整个数据迁移方案中从技术和时间上充分考虑回退方案。

并确定回退方案启动的标准和管理人。

因此,在数据迁移技术和方案的选择策略上,应重点考虑数据的完整性、安全性和平滑性,选择成熟和稳妥的技术方案,尽可能减少对生产系统的冲击。

3 海量数据迁移方法数据迁移方法的选择是建立在对系统软硬件以及业务系统的各环节的具体分析基础之上。

目前开放平台系统中可以采用的数据迁移方法根据其发起端的不同,主要分为以下几类:3.1 基于主机的迁移方式该方式的主要特点是数据迁移操作的发起和控制发生在主服务器端,有以下两种形式: 1) 利用操作系统命令直接拷贝UNIX 系统一般可以使用cp 、dd 、tar 、savevg 等命令; windows 系统,一般使用图形界面工具或copy 命令。

此方法的优点在于:简单灵活,可以方便的决定哪些数据需要迁移;但其缺点也很明显,由于从主机端发起,对主机的负载压力和应用的冲击较大。

2) 逻辑卷数据镜像方法对于服务器操作系统已经采用逻辑卷管理器的系统,可以直接利用逻辑卷管理器的管理功能完成原有数据到新存储的迁移,如图1所示:图1 数据的迁移此方法的优点在于: 支持任意存储系统之间的迁移 ,且成功率较高,支持联机迁移。

但在镜像同步的时候,仍会对主机有一定影响,适合于主机存储的非经常性迁移。

3.2 备份恢复的方式利用备份管理软件将数据备份到磁带(或其他虚拟设备),然后恢复到新的存储设备中,对于联机要求高的环境,可以结合在线备份的方法,然后恢复到目的地。

该方法优点在于:可以有效缩短停机时间窗口,一旦备份完成,其数据的迁移过程完全不会影响生产系统。

但备份时间点至切换时间点,源数据因联机操作所造成的数据变化,需要通过手工方式进行同步。

相关主题