西湖区云计算数据中心项目总论1.1概述今年是"十二五"计划的第一年,在"十二五"期间我们预期、乃至其他周边区域进一步发展高新产业园、大力扶持高新企业,在这样的大背景下必将有很多政府、企业眼光转向云计算服务平台寻求从外部快速、低成本地获取IT资源和管理能力而不只是采用自己搭建IT平台这一缓慢的办法。
受政策和数据安全方面的约束,政府和企业不能或不会考虑国外的公有云平台和混合云平台。
而目前在国,进入云计算的企业由于其自身能力的限制大多仍然停留在云计算的底层设施(硬件、存储、网络)及其基本软件的层级,很少能够有能力建立自有知识产权的可以容易被用户使用的面向服务的云计算平台。
1.2建设背景2010年10月,国家发改委、工业和信息化部下发《关于做好云计算服务创新发展试点示工作的通知》,选择在、、、、等五个城市开展云计算创新发展试点示工作,《通知》要求云计算创新发展试点示工作要与区域产业发展优势相结合,推动国信息服务企业针对政府、大中小企业和个人等不同用户需求,积极探索各类云计算服务;以企业为主体,产学研用联合,加强云计算核心技术研发和产业化;推进云计算中心(平台)建设,为提升信息服务水平、培育战略性新兴产业、调整经济结构、转变发展方式提供有力支撑。
“十二五”期间,我市电子商务建设的主要目标是:建成标准统一、功能完善、安全可靠的政务信息平台,发挥支持作用;重点业务系统建设取得显著成效;基础性、战略性政务信息库建设取得重大进展,数据资源共享程度明显提高;初步形成电子商务网络与信息安全保障体系,建立规的培训制度,与电子商务相关的法规和标准逐步完善。
1.3建设必要性和可行性IDC预计,从2009年底到2013年底,四年期间,云计算将为全球带来8000亿美元的新业务收入,其中为中国带来超过11050亿人民币约合1590亿美元的新净业务收入。
2011年1月18日,在宁召开的“打造中国云―云计算促进产业转型升级”研讨会中国工程院院士、云计算专家德毅报告中指出“云计算是物联网发展的基石。
在中国,云计算已经走过概念炒作阶段,进入实际应用部署的阶段。
”未来3年,云计算应用将以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点,在中国市场逐步被越来越多的企业和机构采用,市场规模也将从2009年的92亿元增长到2012年的606亿元。
1.4建设目标与任务数据中心的建设是为了解决政府部门间信息共享,实现业务部门之间的数据交换与数据共享,促进市电子商务的发展。
具体目标如下:建立数据中心的系统平台。
完成相应的应用软件和数据管理系统建设,实现数据的交换、保存、更新、共享、备份、分发和存证等功能,并扩展容灾、备份、挖掘、分析等功能。
(一)建立数据中心的系统平台。
完成相应的应用软件和数据管理系统建设,实现社会保障数据的交换、保存、更新、共享、备份、分发和存证等功能,并扩展容灾、备份、挖掘、分析等功能。
(二)建立全市自然人、法人、公共信息库等共享数据库,为宏观决策提供数据支持。
对基础数据进行集中管理,保证基础数据的一致性、准确性和完整性,为各业务部门提供基础数据支持;(三)建立数据交换共享和更新维护机制。
实现各业务部门之间的数据交换与共享,以及基础数据的标准化、一致化,保证相关数据的及时更新和安全管理,方便业务部门开展工作;(四)建立数据共享和交换技术标准和相关管理规,实现各部门业务应用系统的规建设和业务协同;(五)为公共服务中心提供数据服务支持,实现面向社会公众的一站式服务;(六)根据统计数据标准汇集各业务部门的原始个案或统计数据,根据决策支持的需要,整理相关数据,并提供统计分析功能,为领导决策提供数据支持;(七)为监督部门提供必要的数据通道,方便实现对业务部门以及业务对象的监管,逐步实现有效的业务监管支持;(八)为业务数据库的备份提供存储和备份手段支持,提高业务应用系统的可靠性。
需求分析1.5用户需求从与数据中心交互的组织机构、人员方面进行说明。
1.6数据需求市数据中心必须满足电子商务平台进行数据交换的需要,同时还必须满足在平台上建立的各业务系统进行综合业务处理的要求。
为门户系统提供各种静态和动态的数据、信息。
所谓静态信息是指对电子商务的运行中不经常变化,供各个业务系统查询、处理的数据或信息:政策、法规、元数据、资料库、各种多媒体数据等,它们会随着时间而逐步增大。
所谓动态数据是指随着运行而增加、修改的数据:并联审批中文件流转状态数据,反映企业、个人所处状态的数据,国民经济运行状态的数据等。
动态数据同各个局委办的信息密切相关,但又是面向主题的,如XX市社会保险这个主题,实际上同保险、工资、税务和银行密切相关;个人信用使用主题,它的数据与银行、税务、个人消费、个人收入密切相关。
而数据仓库显然也有面向主题的定义,但这些主题是较长时间的,具有战略定义的主题。
因此,数据中心的建设,首先要解决数据库异构信息类型的分类存储和检索体系以及针对不同类型数据模型的设计这一基本问题。
另一方面,数据中心管理着大量的结构化和非结构化信息。
所谓非结构化信息,是相对于那些有清晰的结构和类型定义以及有数据相关性的明确描述的信息类型而言的。
比如,在财税分析系统中,财政收支情况的月度数据,可以理解为一种有清晰结构的信息;而一份综合性包含了文字、报表、分析图形的财政收支分析报告则是一种非结构化的信息。
上发布的信息,如新闻动态、政务公开等等,一般也是非结构化的信息。
此外,非结构化信息中还包括了一类对象数据信息。
所谓对象数据信息,是指一个包含了敛结构的专门数据块,这个数据块单独无法建立与别的数据项的关联关系,并且需要工作在特定的工作模块下。
比如:GIS空间定义信息数据、多媒体的声像数据等,均为对象类型的数据。
在政府决策应用中,非结构化信息将占到相当的比例。
所有的政府文件均属于非结构化信息,政策法规属于非结构化信息,一些决策分析的综合性资料也是非结构化信息。
与结构化信息相比,非结构化信息的管理利用存在一些难点,就是:(1)定义管理的难度“非结构”化表明了没有一种象关系数据库规那样的定义模型来对非结构化信息进行定义管理。
虽然你可以强制对一个非结构化的信息块进行解构,将其分成类似头、中、尾这样的半结构。
但是这种解构只有在制定了具有普遍含义的结构描述定义后才有真正的意义。
对非结构化信息进行定义管理的另一个难点在于数据元类型无法穷举。
不象关系型数据系统中,对数据元类型有完整清晰的定义。
在非结构化信息中,包含了错综复杂的数据元类型。
比如,仅文档类型就包括Text、Word、PDF、Excel、Word Pro等等,还有各种图片文件格式、多媒体压缩信息格式等等。
此外,在象网页这样的非结构化信息中,所有的信息都是文字类型,设定时间、数字等类型的信息元并不具有运算上的意义。
(2)存储管理的难度对信息进行存储管理的前提是能够建立有效的数据定义,然后才能进行非结构化信息的组织存放。
而前面已经提到了在非结构化信息的数据定义方面存在的难度,因此也就造成了在非结构化信息存储管理方面的困难。
当然,对非结构化信息最简单的存储方式是直接存放在文件系统中。
这样做避免了依据主题等分类因素对非结构化信息进行管理的问题,但也是最最低效的一种存储管理方式。
在非结构化信息的存储管理中还涉及到一个问题,由于这些信息元(如果对非结构化信息进行一定的半结构化处理后)的数据可能来自关系型数据系统(比如Oracle)、对象数据系统(多媒体数据或空间数据)乃至文档数据系统(比如Notes),所以一个非结构化信息的存储管理系统将充当一个数据的汇整者,需要具备联合各个外部数据系统的功能。
缺乏对非结构化信息的有效管理造成的直接结果就是无法对非结构化信息进行有效检索。
(3)信息检索的难度由于不能像关系数据库那样建立起清晰定义的数据主题,非结构化信息的检索依照的只能是机械的全文容检索。
这是对信息检索非常不利的一点。
虽然对信息容的全文检索可以做到资料检索的遍历,但其检索的效率和命中率是很低的。
由于不象关系数据库那样有一种象SQL(结构化查询语言)那样强大的关联检索工具,并且在定义数据时也没有建立数据项之间的关联关系,要具有针对性地查询非结构化信息的容,必须要依靠应用程序中设置对特定非结构化信息类型进行专门处理的功能容,才可能提高信息检索的强度和效率。
但另一方面讲,一种专用于理解特定非结构化信息类型的处理模块,无论在运行效率还是在可维护性上,都是非常不现实的。
非结构化信息检索的另一个难度也是与数据元类型的多样性有关的。
比如,不同的文档类型结构需要不同的全文索引工作模块。
这也无形中加大了对非结构化信息进行检索的难度。
因此,数据中心的建设,还必须从技术体系上解决如何对非结构化信息进行有效定义、有效管理和有效利用的基本问题。
1.7系统及应用需求分析数据中心的主要业务包括:➢从基层或业务部门采集数据,包括基础数据和部分共享业务数据,支持基础和共享数据的更新维护模式;➢对采集到的数据进行校验和比对,发现冲突时按照共同制订的数据处理规进行处理,保证数据的一致性和准确性;➢受理业务部门或基层单位的基础数据使用申请;➢将整理后的基础数据分发或按需提供给有关部门或单位使用;➢以中介的方式处理共享业务数据使用申请,并进行备案;➢对共享业务数据在征得业务部门同意的情况,通过数据中心进行存储转发;➢将共享元数据的信息发布给各业务部门,提供浏览与订阅申请,方便其共享必要信息;➢提供数据交换平台和接口系统,使数据中心与各部门的数据管理员可以对共享和交换过程进行管理;➢通过数据交换平台存储和管理公共服务数据,并与外网同步,提供一站式服务;➢存储和管理统计数据,根据决策支持的需要,整理相关数据,并提供统计分析功能,对数据进行统计和分析,方便领导及时掌握有关情况。
➢定期对业务数据库进行容灾备份;➢与此相对应,业务部门与数据中心发生的相关业务包括:➢提供数据或共享元数据给数据中心;➢申请使用数据中心的基础数据,校准本单位的基础数据;➢通过数据中心提供的共享元数据信息获取其他单位的数据;➢审批其他单位的业务数据使用申请,并将数据提供出去;➢与数据中心交换公共服务数据;➢提供监督部门直接访问业务数据库的通道;➢提供统计分析数据或原始个案给数据中心,方便主管领导查询;➢定期将业务数据库备份到数据中心;根据数据中心与各业务部门的主要业务,数据中心应提供如下功能:1.7.1节点管理实现与数据中心相连的各个节点的信息管理、配置管理,包括业务部门、区县数据中心等。
1.7.2主题管理数据采集、数据发布、数据共享、数据交换、公共服务以及决策支持均以主题的方式进行,因此必须实现对主题的管理。
主题是元数据的集合。