当前位置:文档之家› 第3讲 CiteSpace安装及分析功能

第3讲 CiteSpace安装及分析功能

第3讲CiteSpace 安装及分析功能李杰1,2,陈超美31.上海海事大学海洋科学与工程学院2.上海海事大学科技情报研究所3. Drexel University-College of Computing andInformatics配套教程: 李杰, 陈超美著.CiteSpace科技文本挖掘及可视化[M].首都经济贸易大学出版社.2016.作者博客: 李杰博客:/u/jerrycueb;陈超美博客:/u/ChaomeiChen本讲基本内容CiteSpace基本术语CiteSpace下载和安装界面介绍(功能参数区和可视化界面)CiteSpace数据分析的关键步骤CiteSpace结果解读的提示基本术语:CiteSpaceCiteSpace:引文空间是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。

由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。

BSE和CJD研究领域的演变(引文空间的变化)/blog-496649-482376.html动画下载地址/~cchen/talks/demo/BSE_CJD_1981-2001_transp.exe基本术语:中介中心性Betweenness centrality:中介中心性是测度节点在网络中重要性的一个指标(此外还有度中心性、接近中心性等)。

CiteSpace中使用此指标来发现和衡量文献的重要性,并用紫色圈对该类文献(或作者、期刊以及机构等)进行重点进行标注。

出现紫圈的节点的中介中心性>=0.1基本术语:突发性探测Burst 检测:突发主题(或文献、作者以及期刊引证信息等)。

在CiteSpace中使用Kleinberg, J(2002)年提出的算法进行检测。

基本术语:引文年轮Citation tree-rings :引文年环–代表着某篇文章的引文历史。

引文年轮的颜色代表相应的引文时间,一个年轮厚度和与相应时间分区内引文数量成正比。

某个时区的引文量被引次数首次共被引时间时区图例发表时间CiteSpace 图例基本术语:阈值阈值,在数据处理中CiteSpace会按照用户设定的阈值提取出各个时间切片满足的文献,并最后合并到网络中。

下面给出三个例子,其他的阈值选择方法将在后文全面介绍。

研究前沿与知识基础123知识基础是一个有利于进一步明晰研究前沿本质的概念。

如果把研究前沿定义为一个研究领域的发展状况,那么研究前沿的引文就形成了相应的知识基础。

研究前沿的知识基础是研究前沿在文献中的引用轨迹。

研究前沿的三种典型认识:1.共被引文献聚类2.共被引文献聚类和所有引用这个聚类的文章3.引用共群文章的文献聚类。

CiteSpace 下载和安装登陆CiteSpace 的下载页面/~cchen/citespace/download/下载Java /technetwork/java/javase/downloads/jre7-downloads-1880261.html 下载并解压即可完成安装小提示只有安装了Java 才能运行CiteSpace 双击打开安装与自己电脑位数匹配的Java版本下载Java/technetwork/java/javase/downloads/jre7-downloads-1880261.html进入CiteSpace 之前的信息界面界面介绍-CiteSpace 功能区及参数区项目区处理报告处理过程文本处理时间切片网络配置网络剪裁可视化设置16547832CiteSpace功能区及参数区项目区:新建项目和项目的编辑空间状态:显示所分析数据的分布情况过程报告:分析数据结果的整体参数数据的时间切片:对数据进行时间切分项目区:新建项目和项目的编辑的重点介绍——如何调整CiteSpace里project 的参数每项参数的值或者为on/off或者为数字。

如提示为(on/off),则说明系统预先设置的值是前面的on。

如果要用到Alias, Exclusion等功能,设相应的参数值为on。

最大引用跨度:如果论文A发表于2015年,并引用发表于1978年的参考文献R,其引用跨度为2015 -1978 + 1 = 38 年。

CiteSpace可以通过参数Look Back Years (-1: unlimited)的设置来滤掉跨度超过一定长度的引用, 比如只考虑10年以内的引用。

当该参数的值为-1时,所有跨度的引用都包括再内。

最大相邻节点数:Max. No. Links to Retain (-1: unlimited)可调节网络模型中每个节点最多可以有多少相邻节点。

当该参数的值为-1时,没有任何限制。

当该值为正整数k时,网络中每个节点最多可以有k个相邻节点,而且这k个节点是所有相邻节点中关联最强的k个。

陈超美.如何调整CiteSpace里project的参数/blog-496649-914950.htmlCiteSpace 功能区及参数区网络配置:包含节点、标准化方法和节点提取依据文本处理:文本处理分为文本处理的知识单元来源和文本的提取CiteSpace 功能区及参数区:网络属性节点类型决定了使用CiteSpace 分析的目的共现网络分析合作网络分析共被引分析文献耦合基金分析作者、机构或者国家的合作网络分析主题、关键词或WoS分类的共现分析文献的共被引分析、作者的共被引分析以及期刊的共被引分析文献的耦合分析在CiteSpace中提供了7种节点的选择依据,这里我们推荐top N方法。

g-indextop NTop N%Threshold 阈值选择By Citation引证过滤Usage 180Usage 2013 U1 使用次数(最近180 天);U2 使用次数(2013 年至今)top N 提取的数据至少有一年在top N里面,最后计算节点在数据集中的总和。

Threshold阈值选择的补充该功能是同时对节点出现次数和关系强度进行的筛选。

第一个值2代表了某个项目(item)出现的次数不低于2次,中间的2代表两个items之间的共现次数最低要为2,并且满足标准化后的余弦标准化强度不小于0.2。

这里的0.2是软件默认的ccv值。

CiteSpace功能区及参数区——地理可视化菜单GeographicalCiteSpace功能区及参数区-期刊的双图叠加菜单Overlay Maps下面以国际Scientometrics 期刊1978-2014年的4003篇论文分析为例说明。

当然,在实际数据处理中,并不是分析了所有的数据。

72339373748446250696179708382629683998189140891158794101114160129131192233226267262362501001502002503003504001978198219861990199419982002200620102014论文量时间1978-2014年发表在Scientometrics 期刊上论文的年度分布国际科学计量学合作网络-作者L. Waltman为Journal of Informetrics现任主编高产作者列表Glanzel W为当前Scientometrics 期刊的主编国际科学计量学合作网络:地理可视化(2001-2014)文献的共被引网络界面介绍-CiteSpace 可视化界面菜单菜单栏快捷功能区可视化视图区分析结果参数信息节点信息列表图形属性调整图形位置调整Metrics:中介中心性的手动计算View:查看突发性探测结果。

网络布局,通常这里不需要用户任何操作。

CiteSpace 可视化快捷功能快捷功能区节点标签调整连线调整突发性探测聚类功能区节点属性调整结果保存背景颜色运行/停止主题词标签文献标签连线标签图形布局方式聚类标签得到的聚类数量突发性检测(注意使用这个功能要等到网络运行静止后才有效)拖动工具条放大或缩小图形网络中节点信息检索框在网络中逐年显示信息(每个时间段中新增加的关系)右侧的小空白用于显示年份。

关键路径识别CiteSpace 可视化快捷功能整体色调的可视化图形节点的可视化年轮中介中心性向量中心性Sigma 指数usage 180 days PageRank统一尺寸聚类类别WoS总被引次数usage 2013图形节点标签的可视化标签阈值和大小设置连线的透明度和过滤聚类标签的阈值和大小调整图形连线的可视化调节图形连线的可视化Link Filter=0Link Filter=30Link Filter=60连线的透明度和过滤视图方式-时间线(Timeline)视图方式-时区图(Time Zone)默认45度60度30度0度时间线视图的调整6. CiteSpace数据分析的关键步骤①确定研究主题及其相关术语。

运用尽可能广泛的专业术语来确定所关注的知识领域。

这是为了所得到的结果能尽可能地涵盖所关注领域的全部内容。

该步骤要求用户对自己所关注的领域要比较熟悉。

在此前提下用户才能确定出合理的术语,以及需要重点关注的术语问题。

②收集数据。

在上一步确定好要检索的术语以后,接下来则要选择数据库来获取所要分析的数据。

当前CiteSpace所分析的数据类型基础是Web of Science格式,也就是说从Web of Science中下载的数据,CiteSpace直接可以读取和分析。

而从其他数据库所收集的数据需要通过转换器进行格式的转换才能进行分析。

数据转换的思路是把其他格式的数据转换为Web of Science的数据格式(例如:CNKI2 WoS,CSSCI2 WoS以及Scopus 2 Wos等)。

③提取研究前沿术语。

从数据库文献的题目(Title)、摘要(Abstract)、关键词(Keywords)、系索词(Descriptor)和标识符中检索N元文法(N-grams)或专业术语,出现频次增长率快速增加的专业术语将被确定为研究前沿术语。

④时区分割(Time Slicing)。

在CiteSpace中需要明确要分析的时间跨度(开始时间和结束时间),以及这个时间跨度的分段长度(即单个时区的长度)。

CiteSpace数据分析的关键步骤⑤阈值的选择。

CiteSpace允许用户使用三种方法来设定阈值。

分别为Top N法,Top N%法以及Threshold Interpolation法。

⑥网络精简和合并。

在CiteSpace中提供两种网络精简算法,分别为Pathfinder和MST。

在对数据进行初始分析时,一般不做任何精简。

通过初步得到的结果,再决定采用何种精简方法。

⑦可视化显示。

CiteSpace的标准视图(默认)为网络图,此外还有Timeline和Timezone视图。

相关主题