2008年第12期(Vo1.27.No.12) 图书馆杂志(Librat ̄Journa1) l7 ・工作研究・ 网络环境下共词分析方法的应用研究 邓中华 孙建军 (南京大学信息管理系 南京210093) 文摘共词分析方法是图书情报研究中的一种十分有效的研究方法,在网络环境下其应用 更加深入。本文利用SPSSI1.O统计分析软件的因子分析、聚类分析以及多维尺度分析对 1997—2007年间国外网络计量学的62篇研究论文进行了共词分析,验证了当前国外网络计 量学的主要研究内容并进一步得出了未来的研究热点是链接分析和网络引文分析两个方面, 充分显示了共词分析在解释学科研究主题方面的重要作用。 关键词共词分析 因子分析聚类分析 多维尺度分析 The Application of Co——word Analysis in Web Environment Deng Zhonghua.Sun Jianjiln (Department of Information Management of Nanjing University,Nanjing 210093) Abstract:The co—word analysis is an very efficacious method in the study of library and informa— tion sciene,particularly in web environment.Using the factor analysis,clustering analysis and multi —dimension analysis of the SPSS1 1.0.this paper has made a co—word analysis to 62 articles of foreign webometrics in 1997—2007,proved that foreign webometries is ̄cusing mainly on link anal- ysis and web citation analysis now and also in the future.All of these have fully showed that the CO —word analysis plays an importment role in revealing subjects. Key words:Co—word analysis,Factor analysis,Clustering analysis,Multi—dimension analysis 1 关于共词分析和数据来源 共词分析方法最早是在20世纪70年代中后期 由法国文献计量学家详细描述的 ,发展到今天,它 已日臻完善并得到广泛的应用。共词分析主要是通 过对能够表达某 一学科领域主题或研究方向的专业 术语(本文是用关键词)共同出现在同一篇文献或 论文中的现象的分析,判断学科领域中主题问的关 系,进而展现该学科的研究结构 J。本文的具体做 法是对高频关键词两两统计其在同一篇文献中出现 的次数,形成共词矩阵,在此基础J二,利用SPSS11.0 (国际三大统计分析软件之一)软件进行因子分析、 聚类分析和多维尺度分析相结合的可视化分析,从 而反映这些关键词之间的相关度,进而分析这些关 键词所代表的学科研究主题。 本文拟以网络计量学的研究主题的揭示显示共 词分析方法在网络环境下的应用。网络计量学是随 着网络技术和现代信息技术的发展在传统“三计 学”0。的基础上涌现的一个新的应用领域。1997年, 丹麦学者T.C.Almind等人首次提出“Webomet— ries”一,吸引了众多研究者的参与,又有Webmetrics 或Cybermetfics,可看作近义词,国内常将其译为网 络计量学或网络信息计量学。本文以1997—2007年 为年限,通过多种检索途径,在Web of science中检 索到75篇相关研究论文,同时在LISA(Library and Information Science Abstracts)数据库中补充以1 997 —2000为年限检索到的4篇相关研究论文,经过剔 除重复冗余,最终将本文的样本量确定为62篇。 2
共词分析过程和结果分析 图书馆杂志(IJbrary Journa1) 2008年第12期(Vo1.27.No.12) 2.1 建立高频关键词的共词矩阵 先抽取各篇论文的关键例,然后用自编的统计 分析程序统计其出现频次即词频,并按词频由高到 低排序,本文截取频次高于2的关键词共28个(见 表1)。由于这些关键词是网络计量学相关研究论 文中出现频次较高的词,它们在很大程度t可以体 现国外网络计量学的发展状况。 然后同样用自编的统计分析程序两两统计他们 在同一篇论文中出现的次数,建立28 x 28的共词矩 阵(见表2)。该矩阵是对称矩阵,其中主对角线上 的数据定义为缺省值,非主对角线上的数据表示两 个关键词共同出现在同一篇论文中的次数。 2.2共词矩阵的标准化——相关矩阵 进行共词分析,光有高频关键词的共词矩阵还 不行,我们还需要知道的是高频关键词之间的相似 性,因此需要将共词矩阵标准化,即利用SPSS11.0 将共词矩阵转化为相关矩阵(见表3)。该相关矩阵 很重要,下面要进行的多元统计分析都是建立在它 的基础上的。 .琳7 嚣埒 {麓 9 埔 1 表1 词频大于2的关键词列表 ……… u 一… 鬟鼹弱 i 世b0翦Let 1cs }wox1d ide web i infozmation Se1enCe b sites impact factor bibliO艄etric嚣 霉枣|arch擘n毫ine嚣 web 1玳p et faetozs inte net 01t ation maalys1s 1inks e0躺u耵teat1on schol ̄rly cb霸 un1e&t1on nt o 取嚣t on-嚣clente site int ̄rIink,ing depott舞lent嚣 irtpact co—auth0 ship e1tat on Coc1%at on col1abox-ation = a娜rle Dat te n j搴嚣ea eh 词频
a嚣 es=men ̄嚣 e e 嚣孽 i 【nVer毒 ty }un1Ve 髫1ty web site ̄ {web 表2 28个关键词的原始共词矩阵 gol酗 霉。善黔畸韵睇 每舫7瑚期eIlO B2ll3蠢 ‘l5嚣捧嚣l7暑埔i 霹O l霹2砭3 d鞠 I 7 博 8 7 7∞g g e 3 b《4 d 2 i 2 l 0 1 0 2 0 1 2 1 o 8 9 9 7 5 9 《 3 6 S S S S 寸 雌 S 1 2 Z 2 2 0 2 0 2 2 2 7 龟 ll d S 4 5 5 5 d 6 d 2 O 2 2 善 l l 2 o 5 e I 2 l 7 zl S 5 S 6 2 5 q 6 5 2 o S 2 3 1 1 3 0 3 l 1 l 2 0 lO 7《5 5 5 g l 5 S口 S 0 S 0 o i 0 l l 0 0 2 l l 0 8 5 8 9 《 粤 4 S S j 5 9毒 5 矗 5 矗 S s 3 5 6 穹 5 2 l 5 5 《 4 鲁 lZ 4I 5 6 5 d d 4 S i 3# S ll3 4I¥口5 0 j,1口B Z 3 {工i4 4l 矗 Z 2 3 0 2 I 2 0 1 2 ; l5 0口0 0 0 0 0 l l l ’l :tI6 2 q 2 5 S l 1 2 l 0 2 1 s _II7 1 2 2 0 e 0 2 l 2 0 8 1 ;l博2 l S 3 0 t 0 0 1 1 2 0 I19 l 2 l l i 0 0 1 0 l 0 l 2 ;蕊日O 2 1 I 0 0 0 l l 0 1 2 蔽l l 2 2 3 1 6 J 0 0 1 0 1 1 {置 0 2 0 O 1 0 l 0 l B I 1 l 赢 2 0 s s 0 0 0 1 j l l 1 2 :肌0 2 0 1 0 0 0 1.o 0 2 t i 0 l 1.2 l 0 2 l 0 l 0 0 芯 2 2 2 l 1 z l 0 0 0 1 1 1 :l Z l j 0 1 I l 0 l 2 0 2 e 0 0 0 l 0 0 l自l 1 2.3多元统计分析 将相关矩阵的数据导入SPSS11.0,即可进行多元 统计分析,包括因子分析、聚类分析和多维尺度分析。 2.3.1因子分析 因子分析,有时也称作主成份分析,是最为常用 的数据简化方法,通过因子分析可将众多的观测变 量浓缩成少数几个【夭1子,需要将特征值准则和碎石 检验准则相结合 。将表3的相关矩阵的数据导入 SPSS11.0进行因子分析即可得到主成份列表(处表 {弋
4),表中列出了所有的主成份,它们按特征根从大到 小排列,放弃特征值小于1的主成份,取特征值大于 1的主成份,前三个主成份解释了总变异的89. 631%。在此基础上建立碎石图(见图1),图中自第 4个观测变量开始曲线变平,因此认为3是可提取 的最大因子数。 参考以上的分析结果,可知在接下来所进行的 聚类分析和多位尺度分析中将本文所用的高频关键 词分为三类比较好。 l 2 34 56 890l 2 34 56 7 89O1 2 34 56 78 聃 鼬 肋m m鼢融 nnnmnn舭姐 髓髓髓 烈∞ ”" n n∞ 9 766 6 54 3 3 3 3 3 0 3 03 叭鑫; 似赫
O l O 0 l O l 0 l l I O 2 l O 0 0 l t l卓l O O a l O O O O l l l l 球l l 0 l O I O 0 l O 0 O l I O 垂e l B l i 1 O 0 l t O 0, 1 ‘O l l 2 l D 2 0 O l l i O 2#l 2 l 5I d搴2 d l S S 5 d 2 5 5 : I I 舀2 S 1 2 5 q 4 l l S 3
l I 8 l 0 0 t l 0 O l l 0 O l l l口2 l l O O :i 0 2勺l 0 l 2 O O 1 l l l l 0 l 牡O l l 0 0 l 2 l 2 0 l O O O l 2 O l唾l 2 O O O 0 l 0 l l 5 l l l S l l 0 l l 2 l O l 2 2 3 l O
邓中华孙建军:网络环境下共词分析方法的应用研究 19 表3 28个高频关键词相关矩阵局部 K01 K02 K03 K04 K05 K06 K01 l 0.780354 0.747808 0。771743 0。917865 0 901 I{02 0.780354 1 0.715471 0。720617 0。739586 0.75£ K03 0.747808 0.71 5471 1 0.926536 0。763267 0.8002 K04 0。771743 0 720617 0。926536i i 0。730563 0.8l0( K05 0.91 7865 0。739586 0.763267 0.730563 1 0.928E K06 0。901777 0。75885 0 800399 0 810045 0 928869 K07 0。785003 0.81 2338 0.739682 0.790444 0。797497 0。839: I(08 0.845615 0.72071 9 0。6933 0.71298 0。87603 0。840, ̄ K09 0.559564 0。577629 0.51 1 l 49 0。674108 0.547648 0。548( K10 0.803692 0.765433 0.777921 0.727122 0.7591王9 0.760E Kl1 0.905066 0。767246 0.779207 0.802724 0 918063 0。9171 表4观测变量列表 Initial Eiger,values Extraction Burns of Squarecl Loadings %of Curnulalive %of eurnulative Component TO协I Variance % O妇| Yatlance % 1 20。{01 71 188 71.788 20.’01 71.788 71 788 2 3,345 11.947 83135 3.345 1I.947 83 735 3 1 651 5.891 89.631 1 651 5.897 89.631 4 0 93 3 322 92.953 5 .0.709 2 531 95.484 6 0 435 1,552 97+036
图l碎石图 2.3.2聚类分析 本文采用系统聚类法,这是一种较常用而有效 的聚类方法,首先将每个关键词看作一类,然后把距 离最近的两类合并,之后重新计算类与类之间的距 离,再把距离最近的两类合并,依此类推,直至将所 有的关键词归为一类 。根据表3的相关矩阵,利 用SPSSI1.0进行系统聚类并加以整理作出了如下 的聚类龙骨图(见图2)。 2.3.3多维尺度分析 多维尺度分析通过低维空间(本文是二维空 间)展现关键词之间的联系,并利用平面距离来反映 关键词之间的相似程度 J。根据表3的相关矩阵,