路漫漫其修远兮,吾将上下而求索- 百度文库信息资源管理上机报告我国近年来生物化学研究热点:基于共词分析视角班级:管信1002班学号:201003083姓名:王秀玉目录目录 (1)1 实验内容 (2)(1)文献资源检索 (2)(2)文献挖掘 (2)(3)分析当前国内生物化学领域研究热点、推测研究趋势 (2)2 文献获取 (2)3 关键词确定 (3)4 其他基本信息 (5)(1)发表单位信息 (5)(2)作者信息 (5)(3)热门文章 (6)5建立供词相关矩阵、相似矩阵、相异矩阵 (7)(1)共词矩阵 (7)(2)相似矩阵 (8)(3)相异矩阵 (8)6 聚类分析 (9)7 因子分析 (10)8 结果分析 (14)(1)牛血清蛋白研究 (14)(2)热休克蛋白研究 (14)(3)对多糖的研究 (14)(4)PCR (15)(5)生物信息学 (15)(6)蛋白质组 (15)(7)代谢组学 (15)(8) 基本特性 (16)9 总结 (16)10 个人体会 (16)1 实验内容本实验是研究国内生物化学领域的研究状况和特点,通过现阶段的热点的分析,进而推测该领域在将来一段时间内的研究趋势。
研究过程主要分为以下三个步骤。
(1)文献资源检索最初对各种数据库以及搜索引擎进行初步尝试和了解,选择资料翔实全面、检索查询较为方便和精细的数据库进行文献资源的检索。
最终选择了中国学术期刊网(中国知网)。
其数据资料全面、查询方法多样且得到的结果比较精确,符合本次实验的要求,能够得到所需要的数据和文献全文。
(2)文献挖掘首先对各种文献挖掘方法进行学习和掌握,特别是书中介绍的共词分析和共引分析,了解每种方法的特点与用途。
之后确定自己所要研究的领域以及研究的方向和想要得到结果。
接下来比较需要的结果和已掌握的方法,最终决定所需要使用的方法。
确定的研究领域为生物化学,需要研究出近十年该领域的研究热点并进行适当的研究方向的预测。
最终选择了共词分析的方法作为该实验文献挖掘的方法。
(3)分析当前国内生物化学领域研究热点、推测研究趋势2 文献获取为了探索国内生物化学领域的研究状况和特点,本实验选择中国学术期刊网(CNKI)全文数据库获取文献。
文献收集过程具体如下:首先,为了保证数据的准确性和全面性,选取的文献数据来自中国知网文献分类-基础科学-生物化学子分类下的文献资料;其次,设定检索时间范围为2002年~2012年,且在前7年的文献中选取引用次数较高的文章,而在后四年选择了下载次数较多的文章,以进一步提高研究的精准度;同时,为了排除不相关文献的干扰,确保文献的查准率,还作了如下处理:一是对符合检索条件的论文进行分析,若论文只与教学相关,则主动予以放弃;二是只选择学术论文,剔除会讯、消息、信息等非学术论文;三是只挑选有关键词的文献,以便作进一步的分析处理。
最后经过去重处理后, 得到相关文献1148篇。
经过一系列格式处理后,最后在EXCEL中建立如下结构的二维表。
(表1)表1 文献数据结构表Title Author Organ CEPeriodical Year Keyword Summary篇名作者发表单位发表期刊发表时间关键词摘要图1 文献数据结构图3 关键词确定通过excel统计功能进行词频统计处理,得到原始关键词共3043个。
利用数据-分类汇总功能,得到词频不小于7的关键词74个。
其中关键词“生物化学”出现15次,但鉴于该关键词与本研究内容完全重合,在共词分析中难以发挥作用,故舍弃。
关键词“应用”出现频率最高,为52次,关键词“研究进展”30次、“评述”12次、“综述”10次、“应用前景”9次、“进展”九次。
最终得到词频不小于7的有效关键次数为68个。
图2 国内生物化学研究领域关键词表最终确定共有35个高频关键词作为共词分析的基础。
这35个关键词及其词频见表2。
表2 国内生物化学研究领域高频关键词表序号关键词词频序号关键词词频序号关键词词频序号关键词词频1 蛋白质51 10 生物学功能19 19 生理功能14 28 多糖112 抗菌肽40 11 相互作用19 20 生物活性14 29 分子伴侣113 蛋白质组学36 12 质谱19 21 双向电泳14 30 基因表达114 牛血清白蛋白30 13 蛋白质组18 22 荧光光谱14 31 荧光探针115 DNA 25 14 蛋白质相互作用17 23高效液相色谱13 32 基因106 结构24 15 超氧化物歧化酶16 24 基因工程12 33 胶原蛋白107 功能22 16 纤维素酶16 25 金属硫蛋白12 34热休克蛋白108 分离纯化20 17 代谢组学15 26 溶菌酶12 35 PCR 109 生物信息学20 18 纯化14 27 制备124 其他基本信息(1)发表单位信息利用excel分列和分类汇总功能得到发表单位的发表文章频次,共有3017个发表单位,选取发表频次不小于10的单位及其发表频次列出:表3国内生物化学研究领域高频发表单位表序号发表单位频次1 南开大学化学系282 山东大学微生物技术国家重点实验室263 华东师范大学生命科学学院244 吉林大学分子酶学工程教育部重点实验室205 军事医学科学院放射医学研究所196 军事医学科学院生物工程研究所187 中国海洋大学海洋生命学院178 东北大学化学系179 福建师范大学生物工程学院1610 江南大学食品学院1511 厦门大学生命科学学院1412 西南科技大学材料科学与工程学院化学系1413 山西农业大学动物科技学院1414 南京工业大学制药与生命科学学院1415 中国科学院大连化学物理研究所1316 浙江大学生命科学学院1317 中国科学院微生物研究所1218 武汉大学生命科学学院1219 河北大学生命科学学院1220 江南大学工业生物技术教育部重点实验室1121 中国药科大学生命科学与技术学院1022 中国水产科学研究院黑龙江水产研究所1023 中国农业大学农业生物技术国家重点实验室10(2)作者信息利用excel分列和分类汇总功能得到发表文章的作者3231人,用同样的方法选择出发表文章频次不小于4的作者及其出现频次。
表4国内生物化学研究领域高频发表作者表编号作者频次1 张玉奎92 何锡文 63 贺福初 54 陈朗星 45 陈启凡 46 樊廷俊 47 盖青青 48 梁琼麟 49 刘秋叶 410 韦萍 411 杨冬芝 412 张士璀 4(3)热门文章近十年来,被引次数最高的文章统计,选取被引次数不小于100的文章、被引次数、发表时间及关键词信息。
表5 国内生物化学领域高被引次数文章表被引Title-题名时间关键词250 实时荧光定量PCR技术及其应用2004 实时荧光定量PCR;基因;荧光探针;SYBR Green229 简单快速的DNA银染和胶保存方法2002 银染;胶保存;PAG;SSCP155 3,5-二硝基水杨酸比色法测定还原糖含量的研究20083;5-二硝基水杨酸(DNS);还原糖;比色法;测定条件146 超氧化物歧化酶(SOD)研究进展2003 活性氧;氧化损伤;超氧化物歧化酶146 差异蛋白质组学及其应用2002 蛋白质组学;差异蛋白质组学;特点;应用前景142 影响多重PCR扩增效果的因素2003 循环参数;PCR缓冲液;反应体积;多重PCR141 纤维素酶的多型性2002 纤维素酶;多型性135 实时定量PCR技术的介绍2003 实时定量PCR;荧光染料;探针;分子信标;杂交探针;Taq Man探针130 生物过氧化氢酶研究进展2005 过氧化氢酶;酶结构;生理功能125 PCR技术及实用方法2003 PCR技术;分子植物育种125有效分离1kDa小肽的Tricine-SDS-PAGE方法2004 聚丙烯酰胺凝胶电泳;小分子肽117 实时定量PCR技术及其应用2004 实时定量;PCR;应用116 谷胱甘肽及其抗氧化作用今日谈2002 谷胱甘肽;氧化应激;抗氧化作用;半胱氨酸;氧自由基;结合反应;脂质过氧化产物;亲核进攻;细胞死亡;白内障115 改良CTAB法用于多年生植物组织基因组DNA的大量提取2004 猕猴桃;DNA;提取;Southern杂交113 实时荧光定量PCR技术的原理及其应用研究进展2007实时荧光定量PCR;荧光标记探针;DNA结合染料107 蛋白水解液中多肽含量的测定方法2005 双缩脲反应;三氯乙酸;多肽含量102 Bcl-2家族蛋白与细胞凋亡2002 Bcl2家族;细胞凋亡;抗凋亡蛋白;促凋亡蛋白100 纤维素酶的研究进展2005 纤维素酶;简单糖;动物纤维素酶;工业化;高比活力100 β-葡萄糖苷酶的研究进展(综述) 2002 β-葡萄糖苷酶;研究进展5建立供词相关矩阵、相似矩阵、相异矩阵(1)共词矩阵由于表2中关键词是有关于生物化学论文中出现频次最高的词,它们从较大程度上能够代表当前国内生物化学研究的热点,为了进一步了解关键词之间的联系,在建立的数据库中,对上表的高频关键词进行两两供词检索,统计itam在1148篇文章中同时出现的频率,建立一个35*35的关键词矩阵,部分共词矩阵数据如图3图3 表征生物化学研究方向的关键词矩阵(部分)共词矩阵为对称矩阵,主对角线的数据定义为缺失,非主对角线定义为两个关键词共同出现的次数。
如关键词“蛋白质”与“DNA”的共词频次为1,即表示有1篇论文同时使用了这两个关键词。
由于下面运用的多元统计方法对矩阵的数据结构有不同的要求, 为了统计分析的方便, 因此用系数将共词矩阵转换成相关矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。
在相关矩阵中由于值过多, 统计时误差过大, 有可能影响分析结果。
为了方便进一步处理, 用1与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。
(2)相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。
具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即:Ochiia ( a, b) = ,其中, Ochiia ( a, b) 表示a、b两词的Ochiia系数; Cab表示a、b两词共同出现的次数;Ca表示关键词a出现的频次; Cb表示关键词b出现的频次。
利用该公式进行计算,得到相似矩阵。
在excel中自行编写公式,可以较为容易的得到相似矩阵。
如共词矩阵在sheet1,将相似矩阵输出在sheet2,则sheet2中的公式为=Sheet1!A1/SQRT(MAX(Sheet1!$A1:$AI1)*MAX(Sheet1!A$1:A$35)),当鼠标变为黑色十字后,拖动到指定范围便可得到相似矩阵。