第27卷 第3期地 震Vol.27,No.3 2007年7月EARTHQUAKEJul.,2007
我国科学数据共享现状的调查与分析*路 鹏1,苗良田1,李志雄2,莫纪宏3,陈华静4,王 松4(1.防灾科技学院,河北燕郊 065201;2.中国地震局地震预测研究所,北京 100036;3.中国社会科学院法学研究所,北京 100720;4.中国地震台网中心,北京 100036)
摘要:为了解我国科学数据共享现状,规范科学数据汇交、共享、管理,笔者开展了科学数据共享现状调查。在基本情况调查的基础上,对我国科学数据资源现状、科学数据共享机制、制约科学数据共享的主要因素进行了初步分析,指出了在我国实施科学数据共享应强化的基础工作。
关键词:科学数据;数据共享;调查;分析中图分类号:P315.63 文献标识码:A 文章编号:1000-3274(2007)03-0125-06
引言 科学数据是人类社会从事科技活动所产生的原始观测数据、探测数据、试验数据、实验数据、调查数据、考察数据、遥感数据、统计数据、研究数据以及相关的元数据和按照某种需求系统加工的数据,具有科学价值和使用价值。科学数据是信息时代最基本、最活跃、影响面最宽的科技创新资源,具潜在价值和开发价值[1]。实现科学数据的共享,既可使科
学数据在应用过程中增值,也是提高科技创新能力的重要支撑。为充分开发利用我国已有科学数据的科学价值,国家科学技术部于2002年开始实施科学数据共享工程,目的是在国家整体规划与协调管理、政策调控和法规体系保障下,应用现代技术,实现科学数据信息资源的开放与共用,增强国家科技创新能力,推进科技进步与创新。为进一步了解科学数据现状和数据共享情况,受国家科学技术部的委托,笔者一方面对承担国家科学研究计划项目的部分单位和首席专家进行了问卷调查和走访;另一方面参阅了国家科学技术部相关项目的科学数据资料调查的有关结果。在调查研究的基础上,对我国科学数据现状进行初步归纳,并对我国科学数据及共享现状和建立健全科学数据共享机制所涉及到的主要问题进行初步分析。
1 我国科学数据资源现状 新中国建立以来,我国根据经济建设和社会发展的多种需求,在诸多科学技术领域组
*收稿日期:2006-12-03;修改回日期:2007-04-20基金项目:科学技术部社会公益性工作项目(2002BIA00038-3)作者简介:路鹏(1964-),女,河北宣化人,副教授,主要从事地震地质科研与教学及统计地震学、软科学研究。织开展了规模不等、程度不同的观测、探测、调查和试验研究工作,形成了公益事业型的科学数据采集、管理系统,如地质调查、气象观测、海洋观测、水文观测、环境监测、地震监测、地形测绘、土地利用调查、农林生态观测研究站网、病虫害监测预报站网、流行病传染病疫情监测、居民营养与健康状况调查、材料腐蚀试验站网等;通过了诸如科技攻关、高技术研究及产业化、重大基础研究和自然科学基金等一系列科技计划,支持了各专业领域的科学研究,建设了一批大型科学工程、重点实验室、工程中心及野外观测研究站网等。这些科技活动积累了大批宝贵的科学数据和基于这些科学数据所得出的大量综合性信息,构成了我国海量科学数据的大致轮廓[2~5]。
据不完全统计,仅“九五”期间,国家在资源环境领域直接投入(含科技事业费、国家专项和各类科技计划项目等的投入)观测、探测、调查、试验的费用就不低于500亿元;同期,为实施国家级科技计划的经费投入也接近两千亿元,在国家科技计划的经费中,约有30%~50%的比例用于科学数据的采集与整理。所以说,我国当前的科学资料、数据和相关信息,是国家长期的巨额投入所获取的一笔巨大的社会财富,支持了大量的科学研究工作,为各项事业的发展提供了有力的保障,在国家宏观决策、经济发展和国家安全诸方面发挥了重要作用。初步估计,近20年来我国先后建设了5000~6000个规模不等、质量各异、应用程度迥异的科学数据库。这些数据库的数据量从几百Kb到几十Tb,覆盖了科学技术的各个领域。在科学数据采集和积累方面,形成了良好的发展态势。具体体现在:(1)主要学科领域科学数据的产生和利用初步形成了体系。经过几十年的努力,气象、海洋、水文、测绘、国土资源、地震、环境、农业、林业、医药卫生、疾病预防与控制等社会公益事业相继建成各自相对完备的相关领域科学数据的大规模采集、积累系统;在国家各类科技计划、科技专项的支持下,研究院所、大专院校和国家各企事业单位产生积累了更为广泛、丰富多样的科学数据、资料与相关信息,这些数据覆盖了我国主要的学科领域。(2)先后建成了一批数据管理机构,数据共享机制正在形成。近20年来,国家各有关部门先后建成了一批数据管理机构,负责收集和整理相关部门所采集的各类数据资料,通过数据库建设和产品加工,向用户提供信息服务,成为所在部门向社会提供公益性、基础性科学数据的服务窗口。此举促进了部门和行业的数据管理机构的整合,极大地增强了相关部门和行业的科学数据管理能力和科学数据共享机制的建立[6]。
(3)积极参与国际合作,形成了较为稳定的国际交流渠道。通过政府间组织、国际数据组织、民间交往,开展国际间的数据合作与交流。如:世界气象组织(WMO)、国际海洋资料交换委员会(IODE)、国际天文学联合会(IAU)第五委员会(文档与天文数据)、国际标准化组织(ISO)、世界数据中心(WDC)、国际科技数据委员会(CODATA)等,我国相应部门通过参加这些组织的工作,初步建立了稳定的科学数据交流渠道。随着互联网技术的发展和应用,数据用户可以通过数据交换网搜索、访问乃至下载诸多国际组织和发达国家相关的数据节点的数据和相关信息[7]。
(4)科学数据管理正朝着数字化、网络化方向发展。20世纪70年代中期以前,我国科学数据、资料与相关信息资源,主要是以纸质、薄膜、胶片以及磁带形式,被分为资料、情报、文献、图书、档案等类型保管,用户要凭介绍信到相关资料档案馆查阅、抄录或索取。随着信息技术的快速发展,当今科学数据的管理正朝着数字化、网络化方向发展。一方面是积极采用数字化手段采集新的数据;另一方面加大了对原有资料的数字化工作力度,一
126 地 震 27卷 批科学数据库建成,并开始在网上提供信息服务[8],[9]。
2 主要学科领域科学数据共享现状调查2.1 调查目的通过调查,主要了解具有代表性的部门承担国家科技计划项目所产生的原始性和加工后的科学数据的种类、规模、分布、共享以及有关数据管理制度,了解现行科技体制下数据共享工作中可能存在的问题,为后续开展科学数据共享法规体系和共享机制的建立奠定基础。2.2 调研内容(1)科学数据的种类、规模及分布情况;(2)科学数据汇交以及共享现状;(3)专家或管理部门对科学数据共享持何种态度;(4)科学数据共享、尤其是数据汇交存在哪些问题及原因;(5)确保科学数据共享工作的开展应有何种技术措施予以配合;(6)科学数据管理体系及制度建设。2.3 调研对象承担国家计划项目的部门、单位及课题组。2.4 调查过程本项调查采取两种形式,一是问卷调查,针对承担地学领域、材料科学领域、生命科学领域等具有代表性的项目负责人或单位进行了问卷调查。调查范围一共涉及中国科学院、中国医学科学院肿瘤研究所、卫生部、农业部、公安部等多个部门共计17个单位,20个科技计划项目。上述20个项目负责人认真地填写了问卷,并及时反馈本研究小组。二是参加科学技术部等有关部门组织的科学数据调研与座谈会,对医学、材料、机器制造、交通与民航、能源和信息等领域的科学数据分布和数据汇集等有关情况开展深入调查。
3 科学数据共享机制现状分析3.1 科学数据及共享调查结果通过对国家科学计划项目问卷反馈结果进行统计归纳,得出以下初步结果:(1)关于科学数据获取方式:75%的项目认为“本项目生成数据量大,支出经费多”;15%的项目认为“主要靠收集其他项目生成数据开展研究”;10%的项目认为“两种数据基本相当”。(2)关于从外系统获取科学数据的难度:75%的项目认为“比较难”。基本理由是:收费高、数据质量无保障,没有可靠、长期的数据提供保障机制;25%的项目认为“难度不大,尚可”。因为,与数据拥有者之间存在科技合作协议、数据交换协议或通过熟人获取数据。(3)怎样获取其他项目生成的数据:20个被调查项目采用主要方式是:①从本单位资料室查找;②与数据拥有者联合申请项目;③通过因特网获取;④借助上级主管部门协调;⑤通过协议;⑥在本系统数据中心获取;⑦通过熟人索取;⑧购买等。
127 3期 路 鹏等:我国科学数据共享现状的调查与分析 调查表明,95%的项目没有在本单位数据中心获取数据,而是通过其他途径获取本项目所需数据。(4)关于项目执行过程中,使用其他部门、行业数据的情况:60%的项目使用了其他单位、部门、行业的数据;40%的项目不需要其他单位、部门、行业的数据。(5)关于项目结束以后“本项目生成数据”的保存:40%的项目“单位同意项目负责人保存”;70%的项目“单位要求上交,但没有强制上交措施”;25%的项目“单位对科学数据存储去向无明确规定”。(6)对当前没有开展数据汇交主要原因的认识:调查表明,项目负责人不同程度地认为下列原因主要阻碍着数据共享工作的开展:①数据私有,不愿汇交(45%);②权益不显明,没有共享积极性(50%);③没有统一的管理机制(65%);④国家没有明确数据政策(55%);⑤缺乏数据标准(40%);⑥没有长期、稳定专项经费(40%);⑦知识产权保护的“外衣”在某种程度上是制约数据共享工作的一个难点(10%)。3.2 科学数据共享现状通过问卷调查分析和到有关单位进行实地调查,本工作小组对我国科学数据共享现状得出以下初步印象:(1)国家科技计划项目经费有相当部分用于获取原生科学数据,其原因有二:一是项目本身确属开创性研究,需要投入相当的经费开展获取数据的工作,以使科学基础研究获得观测事实的有力支持;二是由于我国没有形成科学数据共享氛围,获取已有研究工作的科学数据困难,许多科学工作者已形成“加工面条,必须自己从事开荒种麦子”的工作理念,习惯将自行开展重复性的数据获取工作纳入研究计划,很大程度上浪费了国家科技投资。(2)跨行业获取科学数据是科学工作者普遍认为是一项有较大难度的工作,这在一定程度上影响了科学工作者从事跨领域的科学研究的积极性,极大地制约边缘科学研究取得新的科学发现的可能性。因而,目前的科学数据难以共享的现状,势必会严重制约我国科学技术的发展。(3)科学数据也是国家投资的产物,是国家财产,但纳税人目前尚难获取加以有效利用,继续造福社会。但由于科学数据个人占有观念的影响,科学数据被相当部分的研究人员当作私有财产予以收藏,有悖纳税人的投资初衷。结果导致:一是其他相关研究无法得知,或获取困难,已有科学数据无法继续发挥作用,造成极大的浪费;二是有些人利用其价值谋取不当私利。(4)科学数据质量保证体系的不健全,也是当前部分科学工作者不敢轻易使用其他来源数据的原因。但实际科学研究工作中,相当多的研究项目对其他行业或部门的科学数据有较大需求,在数据质量与数据需求之间存在较大矛盾。因此,应尽快制定科学数据共享标准,建立健全科学数据共享机制势在必行。(5)被调查的项目多数都没有从本单位获取科学数据,表明在某些单位要么数据信息机构不健全,要么已有科学数据获取途径不畅,数据汇集、利用(披露)机制不完备。(6)多数科研单位存在重视科研成果,而轻视作为成果重要组成部分的科研数据的现