第26卷第5期2007年9月地理科学进展PROGRESSINGEOGRAPHYVol.26,No.5Sept.,2007收稿日期:2007-06;修订日期:2007-07.基金项目:国家科技基础条件平台,地球系统科学数据共享网(2006DKA32300)。
作者简介:刘润达,男(1980-),河南许昌人,博士生。
研究方向:科学数据共享,网络信息资源整合技术等。
科学数据共享关键问题探索———以地球系统科学数据共享网为例刘润达1,2,诸云强1(1.中国科学院地理科学与资源研究所,北京100101;2.中国科学院研究生院,北京100039)摘要:作为科学基础设施,科学数据共享平台建设可促进科技原始性创新,提高国家科技竞争能力。
本文回顾我国近年推动科学数据共享方面的工作,指出科学数据共享实施过程中所遇到的主要问题;针对这些问题,在共享理念、数据资源整合和平台建设三个方面探索科学数据共享今后发展的重点和工作方法。
具体结合地球系统科学数据共享网建设实践,提出搭建科学数据交换平台,构建科学数据共享联盟;将科学数据共享与科研项目相结合,实行主动服务;建立强大的科学数据搜索引擎;重视文档、信息服务等。
关键词:数据共享;科学数据;数据联盟;数据中介1引言科学数据作为现代科学可持续发展的重要资源,与科技创新是密不可分的[1]。
为促进科学数据资源的共享和交换,许多发达国家和国际组织都开展了一系列的基于计算机网络的科学数据共享的研究和实践,目的是将长期积累的科学数据为本国以及全球的可持续发展等研究提供数据支撑服务。
例如世界数据中心(WDC,WorldDataCenter)等国际组织的成立,在世界范围内进行科学数据共享的工作[2,3];美国及欧洲的一些发达国家建立了国家级科学数据中心群和数据共享服务网络[4 ̄6],如NASA主持的DAACs,全球变化数据和信息系统,全球变化主目录(GCMD)等。
我国自上世纪80年代起就开始在多个层面上推动科学数据的共享。
1982年,中国科学院提出了“科学数据库及其信息系统”建设项目,经过20多年的发展已经成为综合性的科学信息服务系统;1989年,中国科学院联合有关部门和科研机构,组建了世界数据中心中国中心(WDC-D)和国际科技数据委员会中国委员会;1999年,科技部在科技基础性工作专项中陆续启动了一批数据资源建设,同时还就数据共享中的若干技术问题委托WDC-D开展研究;2001年,科技部主持完成了《实施科学数据共享工程,增强国家科技创新能力》的调研报告,对我国目前科学数据共享存在的主要问题和可能解决的办法等一系列问题进行了详细的调查研究。
同年年底,科技部和中国气象局联合召开新闻发布会,宣布气象数据共享试点正式启动,从而在国家层面上,翻开了我国科学数据共享新的一页;2002年6月,科技部向国务院提出了关于启动科技基础条件平台建设的建议,把建立科1195期刘润达等:科学数据共享关键问题探索———以地球系统科学数据共享网为例学数据共享机制作为增强原始性创新能力的重要环节;2003年,科学数据共享工程3个数据网(可持续发展科学数据共享网、地球系统科学数据共享网、医药卫生科学数据共享网)和6个数据中心(气象科学数据中心、测绘科学数据中心、林业科学数据中心、地震科学数据中心、水文水资源科学数据中心、农业科学数据中心)试点工作全面启动[7]。
经过20年共享活动的开展,我国整个科学数据共享工作取得了一系列的成果:科学数据共享理念逐渐普及,人们已经意识到科学数据共享的深远意义及其重要性;整合集成了一批分散的数据资源,特别是抢救了一批珍贵的数据资源;为国家重大战略需求、科研计划、高等教育和生产应用提供了很好的数据支撑等。
然而,与发达国家相比,我国科学数据共享仍然处在较低的发展阶段,还普遍存在一些突出问题:1)共享理念还不普及:目前我国的科学数据共享主要是政府行为,大部分的数据共享活动是通过政府投资、项目驱动的形式进行,经常出现科学家“各自为战”,科学研究项目“各项目组为战”的情况[8]。
对于数据共享的重要性认识不充分,主动汇交共享科学数据的研究单位和个人还比较少。
2)共享机制不健全:虽然目前有些行业和部门已经出台有关数据共享的政策和条例,鼓励和推动行业或部门数据的共享。
然而,这些政策和条例都有这样或那样的限制,很多数据库只能限于部门和行业内部使用。
同时,国家层面完善的共享机制并未形成。
到目前为此,尚未形成完全开放的数据共享局面。
3)共享平台和技术规范发展慢:数据共享的技术标准与国外主流平台兼容性差,数据交换和汇交存在障碍;平台功能与用户群体需求不匹配,造成一些亟需的科学数据资源依然不能依赖互联网方便获取。
4)数据共享服务效果不明显:长期以来各单位数据资源本身并不规范,短时间内对汇交的数据进行规范化整合很困难,出现元数据或原始数据很多,真正有价值、高质量的能为用户直接使用的数据产品并不多。
另外,由于缺乏配套的数据使用文档、数据来源及处理说明,用户很难放心地去使用这些数据。
因此,从总体上看,数据共享服务效果并不明显。
科学数据共享作为国家的科学基础设施,其发展不是一项短期行为,其目标应该是实现科学数据资源的开放与共用[9],需要科学界广大工作者长时间共同努力才能实现。
本文针对当前科学数据共享中存在的问题,结合地球系统科学数据共享网*(以下简称共享网)五年的建设实践,深入剖析和探索我国当前科学数据共享网和科学数据中心所要关注的问题。
2科学数据共享理念2.1倡导共建、共享,构建科学数据共享联盟据了解,目前许多国家都是在以政府行为来推动数据和信息的共享[10],然而政府单方面的力量毕竟有限,开放和共用的数据共享环境需要研究院所、高等院校、企业、科学界的共同主动参与;另一方面,以数据信息为基础的经济、社会、科学发展中,没有哪一个部门能够拥有科研活动需要的所有数据产品;因此,实践中,只有联合开发,联网发布,构建科学数据共享联盟,才能提升数据的价值,创造更多的财富。
*www.geodata.cn120地理科学进展26卷以地学领域的科学数据共享为例,近年来,对地球系统的整体性研究已经成为人类社会可持续发展的科学支柱[11]。
然而,对数据资源使用情况的调查发现,地球系统是一个巨系统,地学数据具有分散性和异构性的特点,研究人员在对它的研究过程中往往需要来自多家数据生产部门的不同区域、不同时期、不同尺度、不同学科的数据资源。
仅仅依靠一个数据中心、机构掌握的数据资源很难满足研究人员的需求。
因此,地球系统科学数据共享网在实践过程中,不是只靠一家单位或机构的力量来进行数据资源建设,而是倡导共建、共享,构建科学数据共享联盟的理念。
通过这一理念,联合全国各个数据资源生产、存档、管理机构共同参与科学数据共享网的建设;引导数据集的生产者和使用者加入到共享实践当中。
实际操作中,我们通过下面的两种方式进行*(图1):1)构建了以中科院地球系统领域的科研院所、长期野外监测台站、世界数据中心为核心的数据资源保障体系;2)联盟国内高等院校、部门科研单位、国际机构以及科学家,形成一个庞大的数据资源支撑网络。
通过一系列的努力,到2007年已经有35家单位作为数据资源提供点或分中心的角色加入共享网,其中科研院所16家,高等院校8个,其他11个。
一个以地球系统科学数据共享网项目为核心的地球系统科学数据共享联盟初步形成。
在数据联盟内,采用统一的技术标准与软件,开发的平台软件已经在加盟单位部署并运行,实现了数据的发布、实时收割与一站式数据共享服务。
图1地球系统科学数据共享网数据资源保障体系Fig.1Theorganizationstructureforcollectingdataresources科学数据共享联盟不仅仅是数据中心以及数据拥有机构的联盟,更是科研人员的联盟。
如何在联盟内部最大限度地调动科研人员的积极性,挖掘、整合、集成分散异构的数据资源,为我国科学研究人员提供优质的数据共享服务,应当是我国科学数据共享致力探索、研究的一个问题。
*诸云强.地球系统科学数据.中国科学院地理科学与资源研究所,2007.1215期刘润达等:科学数据共享关键问题探索———以地球系统科学数据共享网为例2.2主动服务,逐步吸纳科研项目参与数据共享科学数据共享联盟可以扩展科学数据共享的数据来源,然而,联盟内部的大部分数据中心或数据资源点来自科研院所和高等院校,完全不同于行业部门的数据共享平台。
因此,科学数据共享的建设和发展必须开辟新的数据资源整合和共享服务途径。
其中一个值得考虑的做法是通过主动服务来逐步吸纳科研项目参与数据共享。
任何花费大量资金对我们的地球进行信息采集的科研计划都不能认为是成功的[12]。
对于国家级的科研项目来说,如果最后没有对产生的数据进行有效的管理,将是一种很大的浪费,而科学数据中心或共享平台的数据来源和流向往往与具体的科研计划有着一定的关系,因此除了进行联盟共建以外,可以在数据资源整合和汇交策略上将从国家重大科研项目中获取数据资源作为一个重要的途径。
通过架起数据和数据活动参与者之间的桥梁,主动与科研人员接触,了解他们的需求,并提供数据集产品,而用户在获利以后也会主动的将自己的数据提交共享。
通过互动的方式逐步吸纳用户参与数据共享活动中来,由此建立一种良性循环机制,使得数据共享工作不断深入。
地球系统科学数据共享网在实践中,一方面,积极和当前地学领域内的科研项目联络,为他们提供数据资源的收集、处理服务,通过主动服务来推进科学数据共享的深入。
另一方面,共享网希望数据的汇交成为科学研究的一部分,科学研究项目所产生的数据都能放到共享网来提供共享。
在以往的实践中,共享网和科学研究项目的具体承担人员进行交流和合作,为他们提供科学研究所需要的数据资源,同时项目承担单位和个人也将他们的研究成果和数据提供给共享网,从而达到一个共赢的效果。
这种通过主动服务实现科研与数据生产工作相结合的方法,是科学数据共享网与一般的数据共享网络的一个很大的不同点。
在这一环节中,国家应当采取一定的措施,例如,设置科学数据汇交制度,规定凡是国家经费资助的科研项目,项目所产生的数据必须集中提交到指定的科学数据中心。
另外,共享网与数据提交方必须要相互信任,共享网必须确保数据产权人的知识产权和利益,同时项目主持人和数据提交者必须保证所提交数据的完整性和可用性。
这一切都需要通过一些指导条例和数据政策来进行保障。
通过主动为科研项目提供数据源并同时将项目产生的数据资源纳入共享网中是地球系统科学数据共享网在共享理念上的又一大突破和长期可持续发展的根本。
3数据资源建设关键问题3.1发挥数据交换平台的作用,拓展数据资源数据资源建设是一个数据中心或数据共享网络最根本的问题,整合数据资源是科学数据共享平台的一项基本任务。