当前位置:文档之家› 科学知识图谱研究综述

科学知识图谱研究综述

・新技术应用・科学知识图谱研究综述梁秀娟(湘潭大学公共管理学院 湖南湘潭411105)文 摘 随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。

本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。

关键词 引文分析 可视化 科学知识图谱Rev i ew of M app i n g Knowledge D o ma i n sL i a ng X i ujuan(Public Manage ment School of Xiang Tan University,XiangTan HuNan,411105) Abstract:W ith the devel opment of visual technol ogy which co mbined with citati on analysis technol2 ogy,it can reveal the link bet w een subjects intuitively and vividly.I n this paper,combined with the latest research on citati on analysis and visualizati on,we make a detailed intr oducti on in the areas of mapp ing knowledge domains fr om the origin,concep ts,techniques,app licati ons and the latest p r o2 gress.Key words:Citati on analysis,V isualizati on,Mapp ing knowledge domains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。

而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。

科学知识图谱(Mapp ing Knowledge Domains)正是在这一研究领域中出现的一个新的热点。

1 科学知识图谱的起源科学知识图谱是引文分析与数据、信息可视化相结合的产物。

引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。

正式的引文分析始于上个世纪50年代初,1964年美国的尤金・加菲尔德(Eugene Garfield)创立引文数据库S C I(Science Citati on I ndex,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。

S C I不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。

60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在《应用引文数据撰写科学历史》(The use of citati on data in writing the hist ory of science)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作———《巴比伦以来的科学》《小科学,大科学》《科学文献的网络》中,进行了知识图谱绘制的开创性工作。

尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法己经应运而生了[2]。

国内自上个世纪80年代引入S C I,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。

与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的工具。

可视化作为一个正式的术语是1987年在美国国家科学基金会举办的可视化会议上提出的。

它最早应用于科学计算领域,并形成了可视化研究的一个重要分支———科学计算可视化,被广泛应用于各学科领域的数据和信息处理,产生了数据可视化、信息可视化、知识可视化和引文分析可视化等重要研究领域。

可视化技术的产生为引文分析提供了一个更好的表达和阐述内涵的途径。

国外的学者对此已经进行了一系列的研究,如美国D rexel大学的Howard分析了情报科学1972-1995年的作者共引情况,用图表揭示了对情报科学影响比较大的机构和单位,学科发展结构以及作者关系情况的变化等。

1999年Chen利用三维虚拟技术开发一套把作者共引关系表示出来的图表,并分析了大型的引文网络结构。

加拿大多伦多大学的Yuan An提出了研究计算机文献的相互联系的结构方法,通过数字图书馆检索到有关文献的引用情况,然后应用图表可视化的算法来展示它们之间的关系,并研究其中的一些规律。

英国B runel大学的Chen Chaomei利用可视化技术分析了有关文献的共引情况图,为揭示其有关的规律提供依据。

Steven Noel根据文献的引文耦合提出了有关的可视化方法[3]。

科学知识图谱的应用离不开引文分析和可视化技术,是两者的有机结合。

近年来,随着计算机技术的迅猛发展及应用,引文分析和可视化领域都取得了长足的进步,许多新的技术被广泛应用于文献、专利、基因图和其他信息类型的可视化分析,产生了许多新的研究成果,为科学知识图谱的绘制提供了新的、可靠的理论、方法和技术支持。

其中最引人注目的是数据可视化、信息可视化和引文分析可视化及其应用研究。

将引文分析可视化和科学知识图谱的重要应用前景展现在人们眼前,倍受信息管理界、科学界和科研管理界的关注和青睐。

2 科学知识图谱的概念解析科学知识图谱是一种以科学知识为计量研究对象,将复杂的科学知识领域通过数据挖掘、信息处理、知识计量和图形绘制的图形,以可视化的方式显示科学知识的发展进程与结构关系,揭示科学知识及其活动规律,展现知识结构关系与演进规律。

具体来说,科学知识地图、引文分析可视化、信息可视化等概念与科学知识图谱十分相似,甚至在不同的研究阶段、不同的研究领域成为科学知识图谱的同义语,但它们在本质上仍存在一定的差异。

引文分析可视化是可视化技术和引文分析相结合而产生的,它可以视为信息可视化的一个重要分支,而科学知识图谱是建立在引文分析和信息可视化相结合的基础上。

它的可视化不仅包括传统的散点图和链接节点图,还包括最新自组织图谱、前景图、时间序列图谱和3D显示图等。

不同类型图谱的结合不仅推动了可视化技术的应用,而且给用户提供了更快地导航信息并获取所需信息的方式。

对非专业人士而言,图谱为其提供了进入某一个领域的切入点,可以在宏观以及微观水平上获取更多的知识;而对于专业人士来说,图谱则提供了一个快速明确学科趋势和新发展的渠道。

科学知识图谱也不等同于科学知识地图。

在辞海的解释中,“地图”是按一定比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图,而“图谱”则泛指按类编制的图集。

可见,图谱描述的是一系列地图在一定时间、一定范围内的发展和变化,处在不断的更新和扩展的状态中。

知识地图只能表现科学活动以及知识分布状况,它最大的贡献在于构建知识间的关系,使无序的知识信息以有序的面貌呈现在用户面前,提高了知识的利用率[4]。

知识图谱是从一个真正动态发展的知识结构入手,不仅能展现学科内、学科间知识的现状、发展和完善,更能揭示知识之间的联系及知识的进化规律。

3 科学知识图谱的绘制方法与软件介绍绘制科学知识图谱,是旨在将知识和信息中令人注目的最前沿领域或学科制高点,以可视化的图像直观地展现出来的一种研究手段,具体使用的方法包括引文分析、同被引分析、共词分析、聚类分析、词频分析、社会网络分析、多维尺度分析等。

目前常用的绘制软件有B ibexcel、SPSS、Words m ith Tools、Pa2 jek等。

3.1 绘制科学知识图谱的方法3.1.1 引文分析引文分析主要运用数学和逻辑学等方法对期刊、论文、专著、学科、作者等研究对象的引用和被引用现象和规律进行分析,以便揭示其数量特征和内在规律。

一篇文献的被引频次可以在一定程度上反映该文献的影响度,而影响度的大小又在一定程度上反映了该文献质量和水平的高低。

目前引文分析大致有3种基本类型:(1)从引文数量上进行研究,主要用于评价期刊、论文、机构、作者及地区的科研水平;(2)从引文间的网状关系或链状关系进行研究,主要用于揭示学科的发展与联系,并展望未来前景等;(3)从引文反映出的主题相关性方面进行研究,主要用于揭示科学的结构和进行文献检索等[5]。

2001年加菲尔德和他的同事们推出了H ist Cite 软件。

该软件与SC I数据库结合使用,可以自动的对搜索出的某一学科的被引文献按照被引频次的高低进行排序,并且按照这种引用关系和年份顺序生成关于这一学科的引文编年图。

H ist Cite还可以把所查到的文献按照期刊名称、著者、年份分别进行排序。

加菲尔德等人应用这一软件已经先后对有关数字图书馆、情报科学、信息计量学、共焦显微镜、实验胚胎学、基因组测序等专题研究以及某一段时期有关某一专题研究的杂志的发文情况进行了引文分析,分别生成了引文编年图[6][7]。

3.1.2 同被引分析所谓文献同被引,就是指两篇(或多篇)论文同时被后来的一篇或多篇论文所引证,则称这两篇论文(被引证论文)具有“同被引”关系[8]。

换言之,如果两篇文献具有“同被引”关系,则意味着这两篇文献有相似的学科背景。

如果将同被引分析的对象延伸至与文献相关的各种特征对象,如文献、期刊、著者、学科,就形成相应的文献同被引分析、期刊同被引分析、著者同被引分析和学科同被引分析。

同被引分析的技术手段已经比较成熟,在国外同被引分析多用于作者同被引分析和期刊同被引分析。

如美国D rexel大学的Howard以SPSS为工具,采用聚类分析、多维定标(Multidi m ensi onal Scaling)和因子分析(Fact or Analysis)描述了情报科学1972 -1995年的作者同被引情况,用图表揭示了对情报科学影响比较大的机构和单位,学科发展结构以及作者关系情况的变化等。

1999年C.Chen把路径寻找网络尺度分析(Pathfinder Net w ork Scaling,PF2 NET)技术引入著者同被引分析,并生成了超文本的同被引图[9]。

3.1.3 共词分析共词分析属于内容分析法的一种。

相关主题