当前位置:文档之家› 【生物医学论文】生物医学文本挖掘研究热点

【生物医学论文】生物医学文本挖掘研究热点

生物医学文本挖掘研究热点[摘要]为了解生物医学文本挖掘的研究现状和评估未来的发展方向,以美国国立图书馆PubMed中收录的2000年1月-2015年3月发表的生物医学文本挖掘研究文献记录为样本来源,提取文献记录的主要主题词进行频次统计后截取高频主题词,形成高频主题词-论文矩阵,根据高频主题词在同一篇论文中的共现情况对其进行聚类分析,根据高频主题词聚类分析结果和对应的类标签文献,分析当前生物医学文本挖掘研究的热点。

结果显示,当前文本挖掘在生物医学领域应用的主要研究热点为文本挖掘的基本技术研究、文本挖掘在生物信息学领域里的应用、文本挖掘在药物相关事实抽取中的应用3个方面。

[关键词]文本挖掘;生物医学研究;研究热点随着生物医学科学的飞速发展,生物医学领域的实验数据和文献数量急剧增加。

常用的检索方式通常会消耗大量时间,并且需要对检索词进行仔细筛选及恰当组合。

文本挖掘是通过计算机发现以前未知的新信息,即在现有文献资源中自动提取相关信息,并揭示另外隐含的意义[1]。

利用文本挖掘能够有效地从生物医学数据库中提取相关知识进行研究进而提出新的实验假设,得到新的科学结论,因此文本挖掘在生物科学领域具有很大的应用价值。

以检索词“textmining”在PubMed检索(2015年6月9日)相关文献,结果显示文献累积数量随着年代的分布呈现典型的指数分布,说明文本挖掘在生物医学领域中正处在飞速发展中,是当前的研究热点。

基于以上原因,我们运用共词分析的方法,对2000年1月至2015年3月MEDLINE数据库收录的有关文本挖掘在生物医学领域应用的论文中的高频主题词进行了共现聚类分析,总结出当前国际上文本挖掘在生物医学领域应用的研究热点,并对其进行分析。

1资料与方法数据样本为MEDLINE数据库收录的生物医学领域文本挖掘研究文献。

MEDLINE是国际上生物医学领域的权威数据库,迄今收录文献达2400万篇,通过该数据库可以检测到含有确切关键词的文献[2]。

采用检索策略为:“textmining”[tiab]AND((“2000/01/01”[PDAT]:“2015/03/31”[PDAT])ANDmedline[sb]),共得到879篇相关文献记录。

以xml格式将全部相关文献记录套录下来,运用文献计量学统计分析软件BICOMB[3]抽取和统计以上文献中的主要主题词及副主题词及每个词在以上全部文献中的出现频次,按照它们的出现频次由高到低进行排序,选取其中出现频次高于13次的40个主题词/副主题词作为高频主题词(表1)。

由于这些文献的篇名或摘要中含有“文本挖掘”被检出,且被收录于MEDLINE,其主要内容都与生物医学文本挖掘有关,因此得到的主题词和副主题词可反映文本挖掘在生物医学领域中的应用情况。

对所有高频主题词做进一步处理,统计每一个高频词在文献中的出现情况,形成高频词-文献矩阵,输入到gCLUTO软件,采用系统聚类法对所得相似矩阵进行聚类分析,聚类分析的结果可以反映出这些高频词之间的亲疏关系,分析这些高频主题词能够获得生物医学领域文本挖掘研究的热点。

聚类结果如图1所示,其中横轴代表PubMed数据库中文献,纵轴代表进行聚类的主题词/副主题词。

如果两词聚集到一起的距离短,说明它们的关系越密切[4]。

首先,根据每一类高频主题词的含义以及这些主题词之间的语义关系,总结出每一类主题词所代表的研究热点,即当前医学领域文本挖掘研究的热点。

例如,主题词NaturalLanguageProcessing(自然语言处理)和PeriodicalsasTopic(期刊作为主题)距离较近,关系密切,首先聚成一类;ArtificialIntelli-gence(人工智能)再与前面两个词合成一类,这一类再与MEDLINE组成的一类再聚成一大类,以此类推。

通过分析这些主题词的语义关系就能得出它们所代表的类团含义标签,综合各个类别的类标签可以得出当前医学领域文本挖掘研究的热点。

其次,利用gCLUTO软件计算各类成员对聚类贡献率的指标(描述度Descriptive和区分度Descriminating),选取对每一类形成贡献最大的来源文献作为表示该类内容的类标签文献,通过文献内容进一步阐释该研究方向的具体内容。

2结果与分析通过对近2000-2015年MEDLINE收录的生物医学领域文本挖掘研究文献的高频主题词和副主题词进行共现聚类分析(图1),我们将该领域的研究热点分为以下3大方面,14个主题。

2.1文本挖掘的基本技术2.1.1关于基因名称识别的研究该类所含的主题词有Genes;TerminologyasTopics;Vocabulary,Controlled。

研究内容如根据词表对基因符号消歧,评价生物医学命名体识别的各种标准[5-8],整合多种资源以规范基因名称等。

2.1.2文本分类中高维特征的处理问题该类包含ArtificialIntelligence,Algorithms,PatternRecognition,Automated/methods等主题词。

研究内容如利用Turku系统增强生物医学事件抽取的新的特征选择策略,Swanson的ABC研究中定量计算B词的模型,如何把文本和手工构建通路联系起来[9-12]。

2.1.3文本挖掘中标引注释问题该类包括的主题词有NaturalLanguageProcessing;InformationStorageandRetrieval/methods;PeriodicalsasTopic;Databases,Bibliographic;AbstractingandIndexingasTopic/methods 。

如用于生物文本挖掘语义注释的语料库GENIA,对文章中图例进行标引和分类的系统,从全文中抽取生物学信息的工具。

以上都涉及到文本挖掘语料的库建设,需要事先注释好的语料库[13-16]。

2.1.4文本挖掘初级阶段的辅助工具该类包括DatabaseManagementSystems,MED-LINE,User-ComputerInterface等主题词。

研究内容如通过Web服务进行文本处理的Whatizit系统,对MEDLINE/PubMed文献记录自动挖掘的辅助性工具MedKit,文本中自动标记基因、蛋白质和其他实体名字的开源工具ABNER,支持生物本体开发与分析的API:ONTO-PERL。

其中,基于Web文本分析工具Whatizit是一种基于服务器的,用于分析文献(如任何科学出版物或MEDLINE摘要)中所含信息的模块,它可以辨认术语并将其与生物医学数据库(如UniProtKb/Swiss-Prot)中相应的条目和基因本体概念链接起来[17-19]。

2.2文本挖掘在生物信息学研究中的应用2.2.1系统生物学的知识管理涉及的主题词有SystemsBiology/methods;GeneExpressionProfiling/meth ods,KnowledgeBases。

研究内容如以高通量siRNA监测作为生物系统扰动和与复合物监测并存靶向通路的辨认的方法应用于转化医学的通用和可视化驱动的框架,药物基因组学领域中的关系抽取,用于分析、整合和可视化人类转录组学[20-23]、蛋白质组学和代谢组学的Web系统生物学工具。

2.2.2生物学网络:蛋白质相互作用网络的构建和分析涉及的主题词有ProteinInteractionMapping/methods、Models,Biological 和SignalTransduction/physiology。

研究内容如利用文本挖掘的结果来构建PPI网络,生物网络推理和分析信息融合平台Bio-CAD;还有学者开发出基于网络-上下文的文献检索系统(NcDocReSy)作为Cytoscape的插件,可以通过间接相关的文献帮助用户手工构建网络,该系统结合了用生物学网络检索文献和根据网络拓扑来排序检索到的文献[24-27]。

2.2.3通过文本挖掘获得蛋白质相互作用网络图,并对该图中节点间的关系进行语义上的注释涉及Proteins/metabolism,ProteinInteractionMapping,Semantics等主题词。

研究内容如利用上下文模型和句子格式对基因提名加以规范并提取相互作用,把文献挖掘和从各种来源的相互作用证据结合起来构建鼠蛋白相互作用网络,语言特征在从PubMed中抽取相互作用时的有用程度,以及从文献中抽取人类蛋白质因果关系的挖掘工具PPInterFinder[28-31]。

2.2.4利用文本挖掘进行的蛋白质功能研究涉及的主题词有Databases,Protein;Proteins/chemistry。

研究内容如基于Web的蛋白质序列功能注释工具ProFat,利用图双字相关自动抽取蛋白质点突变,PPI与文本挖掘集成用于蛋白质功能预测;用整合后的全局相关评分改善PPI对排序[32-35]等。

2.2.5文本挖掘方法在生物信息学中应用的概述它涉及到DataMining/methods;ComputationalBiology/methods;Dat abases,Genetic等主题词。

文本挖掘是生物信息学的重要研究方法之一,有助于构建基因数据库和知识库。

研究内容如从自文本中抽取事实的研究,文本挖掘是否能用成倍提高手工构建基因产品的效率。

在OMIM中检索临床纲要的CSI -OMIM系统,利用PharmGKB训练文本挖掘方法以在药物基因组研究中确认潜在基因靶标的研究[36-39]。

2.2.6围绕PubMed的挖掘系统和工具涉及到的主题词有Software,Internet,PubMed。

本类所研究系统和工具与文献挖掘的辅助工具相似,都是基于文献数据库开发的工具,但是辅助工具关注的是MEDLINE数据库,而本类则关注其网络版,因此更具有网络应用的性质。

众多工具不再是辅助性的文本处理工具,而是针对PubMed 的检索和挖掘工具,尤其是基于Web的PubMed检索工具,如GeneView,PPInterFinder等。

与挖掘有关的工具则有书目分析工具,如PipelinePilot就是一种基于Web的PubMed 书目分析工具等,可以进行交互式的文本挖掘[31,40-42]。

以上6个主题也可以归为一个大类,即在生物信息学研究中的应用,侧重系统生物学的挖掘分析,即通过蛋白质相互作用网络的分析来预测蛋白质的功能。

这是文本挖掘当前在生物医学应用的主流,也是文本挖掘在生物医学应用中的重中之重。

2.3文本挖掘在事实抽取中的应用2.3.1如何从文本中抽取事实(关系),即从文献中发现医学知识的方法学研究涉及Databases,Factual;Publications;BiomedicalResearch等主题词。

相关主题