CiteSpace软件展示报告一、概述CiteSpace是由美国德雷塞尔的陈超美教授开发的一款可视化文献分析软件,能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程。
简单说来,就是找出学术文献中文字(包括:作者,杂志,关键词,被引用词汇等等)的关系,并可视化表示出来。
二、作者简介陈超美(Chaomei Chen),男,1960年9月生于中国北京,英国籍,美国(Drexel University, Philadelphia, PA, USA)信息科学与技术学院副教授(终身教职)。
长江学者讲座教授,Drexel– DLUT知识可视化与科学发现联合研究所所长。
他是当代信息可视化与科学知识图谱学术领域中的国际顶尖学者和领军人物之一信息可视化新领域的最早开拓者之一。
陈超美的个人博客有相关最新内容。
CiteSpace的主页有一部分基础资料可以作为蓝本学习使用软件。
陈超美的与他的CiteSpace的发展历程:1999年率先发表了该领域第一部专着2002年创办了该领域第一份该领域的专业期刊《Information Visualization》2002年独立创办了每年一度的Symposium on Knowledge Domain Visualization(KDViz)系列国际讨论会。
2004年开始利用其开发的软件CiteSpace,在该领域写出了不少经典论文,如《》《》2005年提出信息可视化领域面对的十大挑战性问题;在信息可视化领域中引入Pathfinder算法,扩展和提高了文献引文共被引网络分析的效率和应用范围。
2011年7月发布CiteSpace R11版本。
最新版本是今年7月份发布,不过它需要64位的大内存的电脑去支持。
三、信息可视化与科学知识图谱的发展历程因为CiteSpace是一种可视化软件,它与科学知识图谱有密切关系,我们大概讲一讲这个发展过程。
科学知识图谱基本概念:1、传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表达科学统计结果2、新时期的科学计量学图谱随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测……例如:文献共被引,一段时间内文献聚类。
只要有坐标、有文献的发表出处地点,结合地图就能形成一幅文献地理位置图3、CiteSpace研究领域(1)CiteSpace II的概念模型在第一代Citespace 中,用户只能通过视觉观察找到网络中连接不同聚类的点,进而确定关键点。
而Citespace II有了更好的优化,能用时间切片抓拍(Time-slicedsnapshot)来显示研究领域的演变。
接下来我们只会着重介绍CitespaceII。
(2) (3) A: 重要学科领域分析(以术语和学科主题作为网络节点)学科领域分布图B: 研究前沿的知识基础分析(以参考文献作为共引分析节点)基于文献共被引的网络知识图谱C: 研究热点分析(关键词作为网络节点)基于关键词共现的网络知识图② 研究前沿与发展趋势分析——时序图(timeline 、timezone )③ 实现文献计量与地理地图的整合(GoogleEarth )④ ……四、 术语解释1、 Nodes 节点——在绘图软件中,节点即曲线中的控制点、交叉点,网络连接的端点。
2、 Centrality 节点中心度——是指其所在网络中通过该点的任意最短路径的条数,是网络中节点在整体网络中所起连接作用大小的度量。
中心度大的节点相对地容易成为网络中的关键节点。
3、 Betweenness centrality 中间中心性——用来进行中心性测度的指标,指网络中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。
中间中心性高的点往往位于连接两个不同聚类的路径上。
4、 Burst terms 突现词——通过考察词频,将某段时间内其中频次变化率高的词从大量的主题词中探测出来。
5、 Citation tree-rings 引文年环——代表着某篇文章的引文历史。
引文年轮的颜引文数据Source 共引矩阵 Co-Citation解释 检索自动标注类标签Cluster Labels 降维 因子、主成分 Factors, 意义和分析线索 被引文献 概述 主题句 Topical 引文的SVD 引文网络 Network of Citing Articles 聚类 类 Clusters 可视化图谱Graphic色代表相应的引文时间。
一个年轮厚度和与相应时间分区内引文数量成正比。
6、Citation half-life 引文半衰期——半衰期描述引文(文献)老化程度,半衰期越大,显示引文的有效价值越大。
7、Pathfinder network scaling 路径网络简化——种网络简化算法。
8、Minimal spanning trees最小生成树——种网络简化算法。
9、Pivotal points (Turning points)关键点(转折点——网络中中间中心性大于或等于的节点CiteSpace图谱中用紫色的节点表示网络中的关键节点。
10、Thresholds 阈值——用户在引文数量、共被引频次和共被引系数三个层次上,按前中后三个时区分别设定阈值,其余的由线性内插值来决定。
11、Time-zone view 时区视图12、Time slicing 时间分割——设定整个时间跨度和单个时间分区长度。
13、Research front 研究前沿——定义为一组突现的动态概念和潜在的研究问题,引证文献组成了研究前沿。
14、Intellecture base 知识基础——是它在科学文献中( 即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹,被引文献组成了知识基础。
五、软件安装与简介1、环境配置CiteSpace是一个以java语言编写的程序,必须依托浏览器进行启动。
因而必须首先配置java环境。
要CiteSpace能正常运行,系统必须安装以上的JDK(Java Development Kit)才可以,具体只需要登录java官网下载最新版本的JDK并安装即可。
目前最新的版本为JDK 版。
下载地址:2、安装包下载CiteSpace目前最新的版本为R3版,但是该版本是基于64位系统开发的,有可能在32位的系统上出现错误,并且需要通过java虚拟机(JVM, Java Virtual Machine)来运行,所以建议使用32位系统的同学选择R5版进行下载。
下载地址:而如果是64位系统的同学,就选择R3版本里最新的链接。
JVM需要在内存中运行,所以,需要按照具体电脑的内存容量来选择所运行的JVM。
由上至下分别是512M、1GB、2GB和4GB内存的JVM,可适当选择。
文件为一个JNLP文件,大小约200K。
下载完成后,打开该JNLP文件,会弹出以下一个对话框,勾选“我接受风险并希望运行此应用程序”,并按“运行”,则可自动安装。
安装完成后,会弹出以下一个窗口,将其最大化后,点击最下方的Proceed按钮,即可进入CiteSpace。
如见到下面的画面,证明安装已成功完成。
3、控制界面简介(1)数据库选择在CiteSpaceII中,用户可以从web of science中下载数据,然后导入到CiteSpace中进行分析,也可以从PubMed(公共医学数据库)中直接下载数据到CiteSpace,然后进行分析。
(2)数据导入区在web of science数据库下,这一区域主要用于导入已下载的数据,可以通过设置文件的存储路径来读取数据文件。
而在PubMed数据库下,则可以直接在Query框内输入关键字、时间跨度等直接下载数据进行分析。
(3)设置时间分隔在这个区域可以设置要读取的文件的时间跨度,并且设置CiteSpace统计的时间片。
如果需要以每三年或每五年作为文献的研究时间片,可以在Slice处设置3或5。
(4)图像的端点类型和连线的计算方式这个选项比较关键。
上面一个选项主要用于确定生成的图像中的端点代表是什么。
有参考文献、作者等等的选项。
下面一个选项是用于确定生成的图像中两点间的线的粗细程度,通过计算两个端点(可以是两篇参考文献、两个作者等)的余弦相似度确定两点间连线的粗细,相似度越高,连线越粗。
(5)节点与连线筛选这一区域是生成图形中最关键的一步。
这几种方式主要来控制最终生成的网络将由哪些节点组成。
这是第一种方法,第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%:将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
(6)修剪图像这一选项主要用于对生成的图像进行路径的寻找、发现最小生成树和修剪产生的网络,留下最主要的枝干。
(7)图像生成选项这一选项主要用于确定产生的图像聚类时是使用动态还是静态的方式进行聚类,同时也可以选择是按时间片来分开不同时间段的图像还是融合到一起来表现。
4、图像界面首先主要介绍工具条上的主要功能:自动聚类和添加聚类标签后可以得到这样的图:然后我们介绍一下图像的控制面板:六、具体应用1、关于Terrorism的文献分析这一个例子的分析是基于作者在《CiteSpace II Detecting and Visualizing Emerging Trends》这篇文章里的详细分析。
(1)背景介绍恐怖主义(1990 ~2003年):1995年的俄克拉荷马城爆炸和2001年的恐怖主义袭击是最具杀伤力的恐怖主义事件。
其每个事件都可能改变研究的进程。
科学共同体如何应对这些事件和衍生的结果这个研究领域的新兴研究前沿是什么他们同较早的研究前沿是怎样联系的(2)使用软件中的demo(3)设定时间跨度与阈值(4)图像分析A:Cluster view以下两幅配图是作者在《CiteSpace II Detecting and Visualizing Emerging Trends》一文中所用到的配图。