当前位置:文档之家› 关键词共现研究趋势分析

关键词共现研究趋势分析

关键词共现研究趋势分析摘要:对特定领域研究热点及其变化轨迹的分析,有助于我们了解该领域过去的关注点、现在的热点以及其将来的发展趋势。

共词分析法作为内容分析的基本方法,属于一种数据挖掘技术,是一种定量与定性相结合的研究方法,将其运用到学术研究趋势的分析中可以获得更为客观可信的结论。

关键词:关键词共现研究趋势学术热点对于任何一门不断发展的学科,其研究热点也会随着知识体系的完善、科学技术的进步、社会的发展而产生变化。

对特定领域研究热点及其变化轨迹的分析,有助于我们了解该领域过去的关注点、现在的热点以及其将来的发展趋势。

然而在早期的研究中,大部分对研究趋势的把握和论断都是凭借学者的经验判断,这很难排除结论的主观片面性,因此具有较低的可信度。

根据研究发现,共词分析法作为内容分析的基本方法,属于一种数据挖掘技术,是一种定量与定性相结合的研究方法,将其运用到学术研究趋势的分析中可以获得更为客观可信的结论。

1 共词分析方法的提出学术论文的关键词的论文内容的提示符,是作者学术思想及学术观点的凝结,也是文献计量研究的重要指标。

两个或更多关键词在同一篇文献中同时出现称为关键词共现。

共词分析法作为文献计量学常用的研究方法,通过关键词与关键词之间的共现关系描述某一学术领域内部组成关系及其结构,还可以用于揭示学科的发展动态和发展趋势。

关键词共现分析在共词分析理论的基础上需要满足四个假设前提:第一,论文的关键词、标题等关键术语都是经过作者深思熟虑、认真选择的,能够反映该领域的研究现状;第二,当同一篇文章使用多个关键词时,则这些关键词之间有一定的联系;第三,如果有足够多论文中使用一对关键词,那么这对关键词所表示的关系在该学科具有特别的意义;第四,经过培训的标引者选择用以描述内容的关键词,事实上是相关科学概念可以信赖的一个指标。

根据Whittaker J.等人的观点,关键词共现分析还可以用于发现新的学科增长点和突破口,即如果两个关键词同时与某关键词有较强共现关系,则这两个关键词之间也可能存在某种关联,从而导致科学上某种创新的发现。

2 数据分析过程2.1 数据收集在数据收集方面学者通用的有两种方法。

第一种是利用权威机构发布的研究报告中给出的关键词,这样的收集方法较为省时,但无法保证二手数据较高的公正性、有效性和可靠性。

因此较多学者倾向于第二种数据采集方式,即在某数据库中以“学科名称”作为检索途径,调研某个年度时间范围内全部论文及其关键词,并通过反复的人工、校对、去除少量对研究主题没有意义的关键词,以此作为研究的初始数据库。

而在选定的数据库中,关键词出现频率的高低反映了某一领域研究的关注度和集中度的高低。

所以将所有的关键词按照出现的频次降序排列,选取其中频次较高的关键词作为研究对象。

确定高频词汇的方法:一是参照齐普夫第二定律(又称低频词定律);二是同时可以结合研究者在选词个数和词频高度上的经验倾向。

2.2 共词矩阵的构建对于上述中选取的高频关键词,两两取其共现频次,据此形成共词矩阵。

如对于选取的N个高频关键词,共词矩阵的形式为:其中,为第i个关键词和第j个关键词共现的频次;由此可知,即该矩阵是一个对角线对称的方阵。

2.3 关键词共现的指数表达多数研究数据处理只到共现矩阵的构建就结束了,但是根据Van Raan AFJ等人提出的相关概念,共现矩阵反映的是一种绝对的表象,因为两个关键词的共现频次直接两个关键词各自出现的频次影响。

要想真正揭示关键词之间的共现关系,还需引入关键词共现相对强度的指标,这就需要按照特定的计算公式计算关键词共现的强度。

在文献计量学中,常用的表示关键词之间的关联强度的统计指数有Jaccard指数和Salton指数两种。

根据统计学的原理,这两种指数都可以使两个本来关系就密切的关键词显得更密切,使两个关系疏远的关键词显得更疏远,从而将某一学科领域的核心和非核心区分开来。

其中Salton指数更为灵敏,因此本文选用Salton系数计算共现关系的相关系数矩阵为:其中,为Sij第i个关键词和第j个关键词根据Salton指数计算的相关共现系数。

且对角线上元素表示每个关键词对本身的密切程度,始终为1,没有相对的参考价值,所以分析时要丢弃这N个数值。

3 数据分析过程3.1 高频共现关键词分析结果在上述数据分析的基础上,将共现关键词按照其Salton指数高低排序,即可得到反映该学科内研究分布的共现关键词相关系数表。

将该表依据Salton指数大小进行聚类分析,聚类数值较大的共现关键词则可以反映出国内在数据选取时间段内在该学科的核心研究领域。

3.2 高频共现关键词对年度变化分析结果以关键词研究领域热点论题趋势,目前多见的是通过分年度统计并列示高频关键词的方法,但这种方法趋势走向不够直观。

有学者采用分年统计高频共现关键词对的相关共现系数,以得到这些关键词对的数量变化情况。

这样既有利于直观展示研究趋势的走向,又排除了因年度文献总量太大造成的简单的频次比较缺乏横向可比性的问题。

通常情况下,共现关键词对的相关共现系数的变化情况可以分为三种类型:第一种是共现系数连续呈上升趋势的关键词对,这往往反映了近年来该学科正在蓬勃发展的研究领域,其研究势头可能还要延续;另一方面这种趋势意味着这些关键词所代表领域的研究潜力在逐步减少,学者应当注意控制在该领域的研究力量,避免滥化。

第二种是共现系数呈下降趋势的关键词对,这往往反映这这些词代表的研究领域有从学科核心淡出的趋势;另外,过多词对呈现这种下降趋势,可能会影响到该学科研究课题的多样性,研究者应该重视这个问题,并积极找寻新的学科增长点和突破口。

第三种是共现系数始终相对稳定的关键词对,这可能表示这些关键词表示了该学科内一些基础得研究领域,即学科发展的根基。

3.3 尚无研究的词对关键词共现分析结果以关键词共现方法分析领域内的弱势论题的空白研究方向,主要通过比对理论词对矩阵和实际矩阵的方法。

即找出实际的关键词共现矩阵中共现频率近乎零的相关键词对。

在众多关键词中如果存在较多的这种词对,往往揭示了该学科中理论、方法上简单套用、移植其他学科的现象,也从某种角度说明部分学者不够深入的研究风气。

4 图形化表达应用目前,研究趋势分析主要应用在各大论文数据库的特色搜索中。

国内的CNKI和万方数据库都已经推出这样的可视化的检索工具。

国外的Elsevier SDOS/SDOL 电子期刊全文也开放了数据库内容的应用程序接口,接受开发人员开发这样的检索工具。

4.1 CNKI学术趋势CNKI学术趋势是依托于CNKI中国知识资源总库中的海量文献和千万用户的使用情况提供的学术趋势分析服务。

通过关键词在过去一段时间里的“学术关注指数”,用户可以知道其所在的研究领域随着时间的变化被学术界所关注的情况,又有哪些经典文章在影响着学术发展的潮流;通过关键词在过去一段时间内的“用户关注指数”,用户还可以知道在相关领域不同时间段内哪些重要文献被最多的同行所研读。

4.2 万方学术趋势万方数据的知识脉络也是以论文量为依据。

其检索结果中除了图表还有相关热词(与被检索词共现次数较多的词)。

知识脉络从某个知识点出发,结合时间维度形成的脉络分析,对学术选题、学术研究等方面均有一定参考意义。

它的优点表现在:(1)知识脉络从时间维度揭示了知识点的关注度,有助于学者了解学科发展规律和研究选题;(2)知识脉络基于时序揭示了知识点之间随时间变化的演化关系,有助于发现知识点之间的交叉、融合的演变关系,有助于学者发现新的研究方向、研究趋势和研究热点。

当然,知识脉络也有一定的缺陷,即其用来判定热词的是关键词的共现频次,这是一个绝对的表象,不能排除各个关键词出现频次对其的影响,因此应引进相关的共现强度指标。

4.3 QuantiFindQuantiFind是QuantiFind公司与Elsevier合作开发的一款搜索工具,它的创新之处在于利用数量单位发现研究热点之间的相互联系,进而发现学术的研究趋势。

它的独特之处在于可以独立于任何关键词发现新的方面。

关键词共现的图形化表达的应用可以从QuantiFind学习,从更多独特的视角进行研究趋势的分析。

5 结语共词分析法作为内容分析的基本方法,已经广泛运用于文献计量学、信息计量学和科学计量学领域,并取得了丰硕的成果。

本文利用并改进了特定领域研究趋势分析的研究成果,提出了基于关键词共现的研究趋势分析分析的研究思路,最后展示了相关的图形化应用。

我们认为,共词分析法符合复杂科学管理的基本理念,可以作为复杂科学管理的研究方法加以推广运用。

参考文献[1]张勤,徐绪松.定性定量结合的分析方法——共词分析法[J].技术经济,2010,29(6):20~24.[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2009,32(2):88~94.[3]陈立新.国际力学论文关键词的共现分析[J].现代情报,2009,29(10):196~200.[4]QIN H.Knowledge discovery through co-word analysis[J].Library Trends,1999,48(1):133~159.[5]Whittaker J.Creativety and Conformity in Science:Title, Keywords and co-word analysis[J].Social Studies of Science,1989;(19).[6]谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,24(3):69~73.[7]孙立会,赵蔚.基于共现关键词统计的教育技术学研究趋势分析[J].现代远程教育研究,2010(5):28~31.[8]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400~1404.[9]邱均平.期刊文献计量学学术论文的关键词分析[J].中国科技期刊研究,2002,13(6):505~506.[10]Van Raan AFJ,Tijssen RJW.The Neural net of Neural Network Research. An exercise in bibliometic mapping, Scientomtrics,1993(23).[11]黄小燕.情报领域研究热点透视——情报领域论文关键词词频分析[J].图书与情报.2005(6):82~85.[12]CNKI学术趋势与万方数据的知识脉络[EB\OL]./s/blog_4d027*******ggmd.html, 2009.[13]CNKI学术趋势[DB\OL]./.[14]万方知识脉络[DB\OL]./.[15]知识脉络分析服务的研究与实现[DB\OL]./openaccessperiodical/Details /382a6d30-dc34-4d95-905c-00851a46dce5.[16]爱思威尔的SciVerse应用[EB\OL]./action/gallery.。

相关主题