当前位置:文档之家› 中文期刊,学位论文数据库比较分析课题结题报告

中文期刊,学位论文数据库比较分析课题结题报告

中文期刊、学位论文数据库比较分析课题结题报告
项目负责人:何青芳
所在部门:资源建设部
项目起止日期:2007年9月——2008年12月
一、研究目的及意义
网络技术、计算机技术和通讯技术的发展,促进了文献资源数字化的进程,改变和正在改变着人们获取信息的习惯。

人们信息获取习惯的改变和对数据库的青睐,给数据库市场带来了很大的商机,于是,各类数据库如雨后春笋般涌现出来,品目繁多,但是,与此同时也出现了越来越多的内容重复的数据库。

这种现象的出现,给情报机构的资源采购带来苦恼:资金有限,这么多的数据库,到底买哪一个更好?即使经费充足,与本校学科相关的数据库都可以购买,但也可能造成信息泛滥,给读者查阅信息带来困惑:同样内容的数据库,到底查哪一个得到的信息质量更高、内容更全面?此外,由于同类资源太多,必然会有一些数据库使用率不高,造成资源浪费。

比如目前的中文数据库,相对而言其价格比较便宜,于是一些有实力的高校图书馆基本都不加选择的购买了这些数据库,但实际使用中,一些数据库的利用率并不高。

因此,对于同类数据库收录内容进行比较,分析他们的特点,一方面可以为读者利用数据库提供指导,另一方面可以为图书馆的数据库采购提供依据,使图书经费得到有效利用,合理配置数据库资源。

此外,根据目前数据库建设的发展趋势来看,以后象这类收录内容重复的数据库还会不断出现,通过本项目的研究,可以为同类数据库收录内容的比较提供一种方法。

本项目研究的主要目的:
(1)分析论证这些数据库是否可以相互取代还是不可替代,是否可以利用原文传递取代某些利用率低的数据库,为优化我馆的数据库资源和文献采购提供依据;
(2)为读者使用数据库提供指导。

二、研究方法
本项目主要应用比较分析法,(1)对我国三大著名的综合性中国学术期刊论文数据库(《清华学术期刊全文数据库》、《中文科技期刊数据库》、《万方数据资源系统数字化期刊》)所收录的期刊进行比较。

主要从数据库收录期刊的数量、学科、收录核心期刊的数量(核心期刊的参照标准为《中文核心期刊要目总览》、《中国科学引文数据库》、《中文社会科学引文索引》中收录的期刊)和专业、包含的EI和SCI收录期刊的数量等几个方面对三个数据库的收录期刊的数量、收录期刊的质量进行比较分析;(2)对万方的《中国学位论文全文数据库》和清华的《中国优秀搏硕士学位论文数据库》的收录内容进行比较研究。

主要从论文的范围(包括学科范围、收录学校范围)、收录211学校论文的情况、论文收录时间,数据库的更新时间等方面对两个数据库进行比较,分析万方论文数据库对清华论文数据库的覆盖率。

具体方法:
1、将需要比较的期刊数据分别倒入EXCEL表中,对拟作为对比字段的数据进行规范化处理,使要进行对比的2表中的对比字段格式一致,避免对比的不准确性。

由于数据库商提供的期刊目录中部分期刊无ISSN号,有些期刊提供的ISSN 号有错误,而刊名中如果存在一些符号,不同数据库中表示方法上有差异,因此,无论是选刊名还是选ISSN号作为比较字段,都会不可避免的出现误差,因此,对于期刊目录的比较,选择刊名与ISSN号相结合的方式,减少比较误差。

2、利用EXCEL中的INDEX与MATCH语句,2个命令结合使用,比较两个表中的数据库以获得重复数据,具体命令为:=index(表1!A1:An,match(表2!A1,表1!A1:An,0)),其中A1与An为要比较的字段所在列,A1:An表示数据范围,表1与表2中是要进行数据对比的2个期刊目录;
3、对比较结果进行分析,对于有疑问的数据,进入具体数据库进行查验,确保比较结果的正确性。

三、数据来源
1、3种数据库收录期刊目录及收录起始年与已收录年限有数据库商提供;
2、《中文核心期刊要目总览》、《中国科学引文数据库》、《中文社会科学引文索引》、EI和SCI收录期刊目录从互联网查得;
3、学位论文收录数据从数据库中实际查得。

四、研究结果
(一)三种中文全文期刊数据库的比较分析
1、三种数据库期刊收录情况比较
(1)收录数量与收录年代的比较(统计数据截止2008年12月)
(1)刊名刊:只要数据库中有收录,无论收录多少期,都视为被数据库收录。

(2)连续收录刊:本次统计数据截至2008年12月,某本期刊收录年限到2008年,视为被该数据库连续收录。

(3)收录起始年:期刊被数据库收录的最早年代。

表中给出的只是每种数据库的最早的收录年代,实际上,各数据库每年都有新增刊,新增刊基本是从收录年开始收录,如,2008年开始收录的期刊,只从该期刊2008年的期
次开始收录,个别会有回溯。

因此,每一种期刊在数据库中的收录年限不一致,也即,一些期刊,三种数据库并不是在同一年开始收录,因此,在不同数据库中,收录年代并不一致,读者可以利用这一特点查找不同年代的文章。

(2
注:有些期刊属于多个学科,因此学科统计时期刊有重复,核心期刊也有重复。

重复现象严重的是维普。

去重后核心期刊的统计见表2。

3 种数据库均未收录的核心期刊一览
(二)万方与清华学位论文数据库的比较
《万方中国学位论文全文数据库》是由国家法定学位论文收藏机构——中国科技信息研究所提供,并委托万方数据加工建库,收录了自 1977年以来我国各学科领域的博士、硕士研究生论文。

它精选了相关单位近几年来的博士、硕士研究生论文,涵盖自然科学、数理化、天文、地球、生物、医药、卫生、工业技术、航空、环境、社会科学、人文地理等各学科领域。

清华优秀硕博学位论文数据库收录1999年以来的学位论文,有部分1999年以前的学位论文。

万方学位论文收录时间长是它的明显优势。

抽查了清华大学、北京大学、中国科技大学、南京大学、复旦大学、上海交通大学、西安交通大学、浙江大学、哈尔滨工业大学、南开大学、天津大学、东南大学、华中科技大学、武汉大学、厦门大学、山东大学、湖南大学、中国海洋大学、中南大学、吉林大学、北京理工大学、大连理工大学、北京航空航天、重庆大学、电子科技大学、四川大学等几所211学校的学位论文2000年——2007年(数据截至2007年11月)2库中的收录情况,总体情况是年限越早,万方收录的学位论文数越高于清华的优秀硕博论文库,2006年后,清华学位论文库的收录量逐渐赶超万方,当年学位论文的收录量清华远高于万方(见图1),说明清华学位论文数据库更新速度快。

图1 万方学位论文数据库与清华学位论文数据库收录论文量的比较
五、结论
从上述分析看出,三种中文期刊数据库基本覆盖了科学技术和社会科学的各个领域维普收录期刊量最高,CNKI 重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,综合性上做得较好,“万方”收录期刊数量虽为三者中最少,但核心期刊比率很高,收录文献的质量最高。

CNKI 和维普收录期刊重复率约为50%,“万方”收录期刊与这两个数据库的重复率较高,在80%以上,但万方有137种独家买断版权的中华医学会系列期刊;在收录年代上,三种数据库各不相同,CNKI 中有4195期刊回溯到创刊年,其余期刊基本上最早从1994年开始收录,维普期刊基本最早从1989年开始收录,万方最早从1998年开始收录,每个数据库每年都会有新增期刊,新增期刊的起始年从数据库收录年开始,因此,对同一种期刊来说,在三种数据库中的收录年代可能不一样,说明这3个数据库之间有较强的互补性,相互不可完全替代。

三种数据库中收录核心期刊的重复率很高,达到了95%以上,在非核心期刊的收录中,维普在数量上有明显优势,收录量最高,并收录有一定量的内部刊,但这些刊在收录的连续性上查,有些刊只收录了1-2年,甚至有的只收录了1、2期,维普中有2000余钟刊收录不稳定,连续性差,CNKI中也存在这些情况,大约有800余种刊未能连续收录,个别刊只有刊名,并无实际内容,如《父母必读》,万方也有一些期刊未能连续收录,但这些刊基本都是非核心刊,3个数据库中,核心刊和SCI、EI刊的稳定性都比较好,基本能连续收录,其中,在CNKI 收据库中,一些核心刊已经回溯到创刊年,尤其是SCI收录刊,基本都已回溯至创刊年。

在三个数据库中,都收录了大约50多种英文版的中文核心刊,大多数是SCI 收录刊,查询这些期刊上的文章必须输入英文检索词,但绝大多数读者认为这是中文数据库,只输入中文检索词进行检索,因此,这50多种核心刊上的文章不能被检索到,没有得到充分利用,对读者来说也是一大损失,CNKI检索平台中有中英文扩展的选项,可以提醒读者查询英文文章,但其他2个数据库中都无此功能,因此建议在数据库介绍页中加入此项提示,避免读者漏查这些高质量的文章。

2个系统的学位论文,最明显的差异在于万方收录年限长,2006年以前的论文数量高于CNKI,CNKI更新速度明显快于万方,2种数据库可以相互补充。

六、研究困难及不足
在数据收集方面,数据库商不能提供所有期刊的ISSN号,一些期刊名称不统一,在进行比较时出现一些误差,虽然进行人工查询和纠错,但由于数据量太大,还是不能保证比较和统计分析结果的完全正确;在期刊的收录连续性分析方面,维普的期刊目录提供了比较详细的起始年代,可以对详细统计分析各年收录期刊的数量和每种期刊收录的稳定性; CNKI期刊目录提供了每种期刊详细的收录卷期,数据过于详细,统计花费了很多时间分析,万方只提供了收录的起始年,没法了解期刊收录的稳定性,只能在数据库中抽查,因此无法分析万方数据库收录期刊的连续性,期刊的连续性对于读者和我们期刊订购者来说都是很重要的。

相关主题