当前位置：文档之家› 网络环境下共词分析方法的应用研究

网络环境下共词分析方法的应用研究

２００８年第１２期（Ｖｏ１．２７．Ｎｏ．１２）　图书馆杂志（Ｌｉｂｒａｔ￣Ｊｏｕｒｎａ１）　ｌ７　・工作研究・　网络环境下共词分析方法的应用研究　邓中华　孙建军　（南京大学信息管理系　南京２１００９３）　文摘共词分析方法是图书情报研究中的一种十分有效的研究方法，在网络环境下其应用　更加深入。本文利用ＳＰＳＳＩ１．Ｏ统计分析软件的因子分析、聚类分析以及多维尺度分析对　１９９７—２００７年间国外网络计量学的６２篇研究论文进行了共词分析，验证了当前国外网络计　量学的主要研究内容并进一步得出了未来的研究热点是链接分析和网络引文分析两个方面，　充分显示了共词分析在解释学科研究主题方面的重要作用。　关键词共词分析　因子分析聚类分析　多维尺度分析　Ｔｈｅ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｃｏ——ｗｏｒｄ　Ａｎａｌｙｓｉｓ　ｉｎ　Ｗｅｂ　Ｅｎｖｉｒｏｎｍｅｎｔ　Ｄｅｎｇ　Ｚｈｏｎｇｈｕａ．Ｓｕｎ　Ｊｉａｎｊｉｌｎ　（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｎａｎｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ　２１００９３）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｃｏ—ｗｏｒｄ　ａｎａｌｙｓｉｓ　ｉｓ　ａｎ　ｖｅｒｙ　ｅｆｆｉｃａｃｉｏｕｓ　ｍｅｔｈｏｄ　ｉｎ　ｔｈｅ　ｓｔｕｄｙ　ｏｆ　ｌｉｂｒａｒｙ　ａｎｄ　ｉｎｆｏｒｍａ—　ｔｉｏｎ　ｓｃｉｅｎｅ，ｐａｒｔｉｃｕｌａｒｌｙ　ｉｎ　ｗｅｂ　ｅｎｖｉｒｏｎｍｅｎｔ．Ｕｓｉｎｇ　ｔｈｅ　ｆａｃｔｏｒ　ａｎａｌｙｓｉｓ，ｃｌｕｓｔｅｒｉｎｇ　ａｎａｌｙｓｉｓ　ａｎｄ　ｍｕｌｔｉ　—ｄｉｍｅｎｓｉｏｎ　ａｎａｌｙｓｉｓ　ｏｆ　ｔｈｅ　ＳＰＳＳ１　１．０．ｔｈｉｓ　ｐａｐｅｒ　ｈａｓ　ｍａｄｅ　ａ　ｃｏ—ｗｏｒｄ　ａｎａｌｙｓｉｓ　ｔｏ　６２　ａｒｔｉｃｌｅｓ　ｏｆ　ｆｏｒｅｉｇｎ　ｗｅｂｏｍｅｔｒｉｃｓ　ｉｎ　１９９７—２００７，ｐｒｏｖｅｄ　ｔｈａｔ　ｆｏｒｅｉｇｎ　ｗｅｂｏｍｅｔｒｉｅｓ　ｉｓ￣ｃｕｓｉｎｇ　ｍａｉｎｌｙ　ｏｎ　ｌｉｎｋ　ａｎａｌ－　ｙｓｉｓ　ａｎｄ　ｗｅｂ　ｃｉｔａｔｉｏｎ　ａｎａｌｙｓｉｓ　ｎｏｗ　ａｎｄ　ａｌｓｏ　ｉｎ　ｔｈｅ　ｆｕｔｕｒｅ．Ａｌｌ　ｏｆ　ｔｈｅｓｅ　ｈａｖｅ　ｆｕｌｌｙ　ｓｈｏｗｅｄ　ｔｈａｔ　ｔｈｅ　ＣＯ　—ｗｏｒｄ　ａｎａｌｙｓｉｓ　ｐｌａｙｓ　ａｎ　ｉｍｐｏｒｔｍｅｎｔ　ｒｏｌｅ　ｉｎ　ｒｅｖｅａｌｉｎｇ　ｓｕｂｊｅｃｔｓ．　Ｋｅｙ　ｗｏｒｄｓ：Ｃｏ—ｗｏｒｄ　ａｎａｌｙｓｉｓ，Ｆａｃｔｏｒ　ａｎａｌｙｓｉｓ，Ｃｌｕｓｔｅｒｉｎｇ　ａｎａｌｙｓｉｓ，Ｍｕｌｔｉ—ｄｉｍｅｎｓｉｏｎ　ａｎａｌｙｓｉｓ　１　关于共词分析和数据来源　共词分析方法最早是在２０世纪７０年代中后期　由法国文献计量学家详细描述的　，发展到今天，它　已日臻完善并得到广泛的应用。共词分析主要是通　过对能够表达某　一学科领域主题或研究方向的专业　术语（本文是用关键词）共同出现在同一篇文献或　论文中的现象的分析，判断学科领域中主题问的关　系，进而展现该学科的研究结构　Ｊ。本文的具体做　法是对高频关键词两两统计其在同一篇文献中出现　的次数，形成共词矩阵，在此基础Ｊ二，利用ＳＰＳＳ１１．０　（国际三大统计分析软件之一）软件进行因子分析、　聚类分析和多维尺度分析相结合的可视化分析，从　而反映这些关键词之间的相关度，进而分析这些关　键词所代表的学科研究主题。　本文拟以网络计量学的研究主题的揭示显示共　词分析方法在网络环境下的应用。网络计量学是随　着网络技术和现代信息技术的发展在传统“三计　学”０。的基础上涌现的一个新的应用领域。１９９７年，　丹麦学者Ｔ．Ｃ．Ａｌｍｉｎｄ等人首次提出“Ｗｅｂｏｍｅｔ—　ｒｉｅｓ”一，吸引了众多研究者的参与，又有Ｗｅｂｍｅｔｒｉｃｓ　或Ｃｙｂｅｒｍｅｔｆｉｃｓ，可看作近义词，国内常将其译为网　络计量学或网络信息计量学。本文以１９９７—２００７年　为年限，通过多种检索途径，在Ｗｅｂ　ｏｆ　ｓｃｉｅｎｃｅ中检　索到７５篇相关研究论文，同时在ＬＩＳＡ（Ｌｉｂｒａｒｙ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　Ａｂｓｔｒａｃｔｓ）数据库中补充以１　９９７　—２０００为年限检索到的４篇相关研究论文，经过剔　除重复冗余，最终将本文的样本量确定为６２篇。　２

共词分析过程和结果分析　图书馆杂志（ＩＪｂｒａｒｙ　Ｊｏｕｒｎａ１）　２００８年第１２期（Ｖｏ１．２７．Ｎｏ．１２）　２．１　建立高频关键词的共词矩阵　先抽取各篇论文的关键例，然后用自编的统计　分析程序统计其出现频次即词频，并按词频由高到　低排序，本文截取频次高于２的关键词共２８个（见　表１）。由于这些关键词是网络计量学相关研究论　文中出现频次较高的词，它们在很大程度ｔ可以体　现国外网络计量学的发展状况。　然后同样用自编的统计分析程序两两统计他们　在同一篇论文中出现的次数，建立２８　ｘ　２８的共词矩　阵（见表２）。该矩阵是对称矩阵，其中主对角线上　的数据定义为缺省值，非主对角线上的数据表示两　个关键词共同出现在同一篇论文中的次数。　２．２共词矩阵的标准化——相关矩阵　进行共词分析，光有高频关键词的共词矩阵还　不行，我们还需要知道的是高频关键词之间的相似　性，因此需要将共词矩阵标准化，即利用ＳＰＳＳ１１．０　将共词矩阵转化为相关矩阵（见表３）。该相关矩阵　很重要，下面要进行的多元统计分析都是建立在它　的基础上的。　．琳７　嚣埒　｛麓　９　埔　１　表１　词频大于２的关键词列表　………　ｕ　一…　鬟鼹弱　ｉ　世ｂ０翦Ｌｅｔ　１ｃｓ　｝ｗｏｘ１ｄ　ｉｄｅ　ｗｅｂ　ｉ　ｉｎｆｏｚｍａｔｉｏｎ　Ｓｅ１ｅｎＣｅ　ｂ　ｓｉｔｅｓ　ｉｍｐａｃｔ　ｆａｃｔｏｒ　ｂｉｂｌｉＯ艄ｅｔｒｉｃ嚣　霉枣｜ａｒｃｈ擘ｎ毫ｉｎｅ嚣　ｗｅｂ　１玳ｐ　ｅｔ　ｆａｅｔｏｚｓ　ｉｎｔｅ　ｎｅｔ　０１ｔ　ａｔｉｏｎ　ｍａａｌｙｓ１ｓ　１ｉｎｋｓ　ｅ０躺ｕ耵ｔｅａｔ１ｏｎ　ｓｃｈｏｌ￣ｒｌｙ　ｃｂ霸　ｕｎ１ｅ＆ｔ１ｏｎ　ｎｔ　ｏ　取嚣ｔ　ｏｎ－嚣ｃｌｅｎｔｅ　ｓｉｔｅ　ｉｎｔ￣ｒＩｉｎｋ，ｉｎｇ　ｄｅｐｏｔｔ舞ｌｅｎｔ嚣　ｉｒｔｐａｃｔ　ｃｏ—ａｕｔｈ０　ｓｈｉｐ　ｅ１ｔａｔ　ｏｎ　Ｃｏｃ１％ａｔ　ｏｎ　ｃｏｌ１ａｂｏｘ－ａｔｉｏｎ　＝　ａ娜ｒｌｅ　Ｄａｔ　ｔｅ　ｎ　ｊ搴嚣ｅａ　ｅｈ　词频　

ａ嚣　ｅｓ＝ｍｅｎ￣嚣　ｅ　ｅ　嚣孽　ｉ　【ｎＶｅｒ毒　ｔｙ　｝ｕｎ１Ｖｅ　髫１ｔｙ　ｗｅｂ　ｓｉｔｅ￣　｛ｗｅｂ　表２　２８个关键词的原始共词矩阵　ｇｏｌ酗　霉。善黔畸韵睇　每舫７瑚期ｅＩｌＯ　Ｂ２ｌｌ３蠢　‘ｌ５嚣捧嚣ｌ７暑埔ｉ　霹Ｏ　ｌ霹２砭３　ｄ鞠　Ｉ　７　博　８　７　７∞ｇ　ｇ　ｅ　３　ｂ《４　ｄ　２　ｉ　２　ｌ　０　１　０　２　０　１　２　１　ｏ　８　９　９　７　５　９　《　３　６　Ｓ　Ｓ　Ｓ　Ｓ　寸　雌　Ｓ　１　２　Ｚ　２　２　０　２　０　２　２　２　７　龟　ｌｌ　ｄ　Ｓ　４　５　５　５　ｄ　６　ｄ　２　Ｏ　２　２　善　ｌ　ｌ　２　ｏ　５　ｅ　Ｉ　２　ｌ　７　ｚｌ　Ｓ　５　Ｓ　６　２　５　ｑ　６　５　２　ｏ　Ｓ　２　３　１　１　３　０　３　ｌ　１　ｌ　２　０　ｌＯ　７《５　５　５　ｇ　ｌ　５　Ｓ口　Ｓ　０　Ｓ　０　ｏ　ｉ　０　ｌ　ｌ　０　０　２　ｌ　ｌ　０　８　５　８　９　《　粤　４　Ｓ　Ｓ　ｊ　５　９毒　５　矗　５　矗　Ｓ　ｓ　３　５　６　穹　５　２　ｌ　５　５　《　４　鲁　ｌＺ　４Ｉ　５　６　５　ｄ　ｄ　４　Ｓ　ｉ　３＃　Ｓ　ｌｌ３　４Ｉ￥口５　０　ｊ，１口Ｂ　Ｚ　３　｛工ｉ４　４ｌ　矗　Ｚ　２　３　０　２　Ｉ　２　０　１　２　；　ｌ５　０口０　０　０　０　０　ｌ　ｌ　ｌ　’ｌ　：ｔＩ６　２　ｑ　２　５　Ｓ　ｌ　１　２　ｌ　０　２　１　ｓ　＿ＩＩ７　１　２　２　０　ｅ　０　２　ｌ　２　０　８　１　；ｌ博２　ｌ　Ｓ　３　０　ｔ　０　０　１　１　２　０　Ｉ１９　ｌ　２　ｌ　ｌ　ｉ　０　０　１　０　ｌ　０　ｌ　２　；蕊日Ｏ　２　１　Ｉ　０　０　０　ｌ　ｌ　０　１　２　蔽ｌ　ｌ　２　２　３　１　６　Ｊ　０　０　１　０　１　１　｛置　０　２　０　Ｏ　１　０　ｌ　０　ｌ　Ｂ　Ｉ　１　ｌ　赢　２　０　ｓ　ｓ　０　０　０　１　ｊ　ｌ　ｌ　１　２　：肌０　２　０　１　０　０　０　１．ｏ　０　２　ｔ　ｉ　０　ｌ　１．２　ｌ　０　２　ｌ　０　ｌ　０　０　芯　２　２　２　ｌ　１　ｚ　ｌ　０　０　０　１　１　１　：ｌ　Ｚ　ｌ　ｊ　０　１　Ｉ　ｌ　０　ｌ　２　０　２　ｅ　０　０　０　ｌ　０　０　ｌ自ｌ　１　２．３多元统计分析　将相关矩阵的数据导入ＳＰＳＳ１１．０，即可进行多元　统计分析，包括因子分析、聚类分析和多维尺度分析。　２．３．１因子分析　因子分析，有时也称作主成份分析，是最为常用　的数据简化方法，通过因子分析可将众多的观测变　量浓缩成少数几个【夭１子，需要将特征值准则和碎石　检验准则相结合　。将表３的相关矩阵的数据导入　ＳＰＳＳ１１．０进行因子分析即可得到主成份列表（处表　｛弋　

４），表中列出了所有的主成份，它们按特征根从大到　小排列，放弃特征值小于１的主成份，取特征值大于　１的主成份，前三个主成份解释了总变异的８９．　６３１％。在此基础上建立碎石图（见图１），图中自第　４个观测变量开始曲线变平，因此认为３是可提取　的最大因子数。　参考以上的分析结果，可知在接下来所进行的　聚类分析和多位尺度分析中将本文所用的高频关键　词分为三类比较好。　ｌ　２　３４　５６　８９０ｌ　２　３４　５６　７　８９Ｏ１　２　３４　５６　７８　聃　鼬　肋ｍ　ｍ鼢融　ｎｎｎｍｎｎ舭姐　髓髓髓　烈∞　”＂　ｎ　ｎ∞　９　７６６　６　５４　３　３　３　３　３　０　３　０３　叭鑫；　似赫　

Ｏ　ｌ　Ｏ　０　ｌ　Ｏ　ｌ　０　ｌ　ｌ　Ｉ　Ｏ　２　ｌ　Ｏ　０　０　ｌ　ｔ　ｌ卓ｌ　Ｏ　Ｏ　ａ　ｌ　Ｏ　Ｏ　Ｏ　Ｏ　ｌ　ｌ　ｌ　ｌ　球ｌ　ｌ　０　ｌ　Ｏ　Ｉ　Ｏ　０　ｌ　Ｏ　０　Ｏ　ｌ　Ｉ　Ｏ　垂ｅ　ｌ　Ｂ　ｌ　ｉ　１　Ｏ　０　ｌ　ｔ　Ｏ　０，　１　‘Ｏ　ｌ　ｌ　２　ｌ　Ｄ　２　０　Ｏ　ｌ　ｌ　ｉ　Ｏ　２＃ｌ　２　ｌ　５Ｉ　ｄ搴２　ｄ　ｌ　Ｓ　Ｓ　５　ｄ　２　５　５　：　Ｉ　Ｉ　舀２　Ｓ　１　２　５　ｑ　４　ｌ　ｌ　Ｓ　３　

ｌ　Ｉ　８　ｌ　０　０　ｔ　ｌ　０　Ｏ　ｌ　ｌ　０　Ｏ　ｌ　ｌ　ｌ口２　ｌ　ｌ　Ｏ　Ｏ　：ｉ　０　２勺ｌ　０　ｌ　２　Ｏ　Ｏ　１　ｌ　ｌ　ｌ　ｌ　０　ｌ　牡Ｏ　ｌ　ｌ　０　０　ｌ　２　ｌ　２　０　ｌ　Ｏ　Ｏ　Ｏ　ｌ　２　Ｏ　ｌ唾ｌ　２　Ｏ　Ｏ　Ｏ　０　ｌ　０　ｌ　ｌ　５　ｌ　ｌ　ｌ　Ｓ　ｌ　ｌ　０　ｌ　ｌ　２　ｌ　Ｏ　ｌ　２　２　３　ｌ　Ｏ

　邓中华孙建军：网络环境下共词分析方法的应用研究　１９　表３　２８个高频关键词相关矩阵局部　Ｋ０１　Ｋ０２　Ｋ０３　Ｋ０４　Ｋ０５　Ｋ０６　Ｋ０１　ｌ　０．７８０３５４　０．７４７８０８　０。７７１７４３　０。９１７８６５　０　９０１　Ｉ｛０２　０．７８０３５４　１　０．７１５４７１　０。７２０６１７　０。７３９５８６　０．７５￡　Ｋ０３　０．７４７８０８　０．７１　５４７１　１　０．９２６５３６　０。７６３２６７　０．８００２　Ｋ０４　０。７７１７４３　０　７２０６１７　０。９２６５３６ｉ　ｉ　０。７３０５６３　０．８ｌ０（　Ｋ０５　０．９１　７８６５　０。７３９５８６　０．７６３２６７　０．７３０５６３　１　０．９２８Ｅ　Ｋ０６　０。９０１７７７　０。７５８８５　０　８００３９９　０　８１００４５　０　９２８８６９　Ｋ０７　０。７８５００３　０．８１　２３３８　０．７３９６８２　０．７９０４４４　０。７９７４９７　０。８３９：　Ｉ（０８　０．８４５６１５　０．７２０７１　９　０。６９３３　０．７１２９８　０。８７６０３　０。８４０，￣　Ｋ０９　０．５５９５６４　０。５７７６２９　０．５１　１　ｌ　４９　０。６７４１０８　０．５４７６４８　０。５４８（　Ｋ１０　０．８０３６９２　０．７６５４３３　０．７７７９２１　０．７２７１２２　０．７５９１王９　０．７６０Ｅ　Ｋｌ１　０．９０５０６６　０。７６７２４６　０．７７９２０７　０．８０２７２４　０　９１８０６３　０。９１７１　表４观测变量列表　Ｉｎｉｔｉａｌ　Ｅｉｇｅｒ，ｖａｌｕｅｓ　Ｅｘｔｒａｃｔｉｏｎ　Ｂｕｒｎｓ　ｏｆ　Ｓｑｕａｒｅｃｌ　Ｌｏａｄｉｎｇｓ　％ｏｆ　Ｃｕｒｎｕｌａｌｉｖｅ　％ｏｆ　ｅｕｒｎｕｌａｔｉｖｅ　Ｃｏｍｐｏｎｅｎｔ　ＴＯ协Ｉ　Ｖａｒｉａｎｃｅ　％　Ｏ妇｜　Ｙａｔｌａｎｃｅ　％　１　２０。｛０１　７１　１８８　７１．７８８　２０．’０１　７１．７８８　７１　７８８　２　３，３４５　１１．９４７　８３１３５　３．３４５　１Ｉ．９４７　８３　７３５　３　１　６５１　５．８９１　８９．６３１　１　６５１　５．８９７　８９．６３１　４　０　９３　３　３２２　９２．９５３　５　．０．７０９　２　５３１　９５．４８４　６　０　４３５　１，５５２　９７＋０３６　

e商务文档

网络环境下共词分析方法的应用研究

相关文档推荐：