《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:文献数据库中书目信息共现挖掘系统的开发 [J],现代图书情报技术,2008(8):70-75.70 现代图书情报技术文献数据库中书目信息共现挖掘系统的开发崔 雷 刘 伟 闫 雷 张 晗 侯跃芳 黄莹娜 张 浩(中国医科大学信息管理与信息系统(医学)系 沈阳110001)【摘要】针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。
该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。
其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。
【关键词】文本挖掘 共现分析 书目信息 科学计量学【分类号】G254DevelopmentofaTextMiningSystemBasedontheCo-occurrenceofBibliographicItemsinLiteratureDatabasesCuiLei LiuWei YanLei ZhangHan HouYuefang HuangYingna ZhangHao(DepartmentofInformationManagementandInformationSystem(Medicine),ChinaMedicalUniversity,Shenyang110001,China)【Abstract】Thispaperpresentsatextminingsystembasedontheco-occurrenceofbibliographicitemsinliteratureda tabases.ThissystemproducestheprincipalbibliometricindicatorsofagivendocumentsetorientedtoPubMedandWebofScience,andsomeofresultsarepresentedbyvisualizationtechniques.Furthermore,itprovidesclusteranalysisandas sociationanalysisbyinvestigatingtheco-occurrencedataofhigh-frequentMeSHterms,high-productiveauthors,highly-citedpapersandhighly-citedauthors.Usingtheseapproachesuserscanminingthepotentialassociationrulesa mongMeSHterms,andengagescientometricinvestigations.【Keywords】Textmining Co-occurrence Bibliographicsystem Scientometrics 收稿日期:2008-03-19 收修改稿日期:2008-06-12 本文系国家自然科学基金项目“运用文本数据库中元数据关联规则进行知识发现的研究”(项目编号:70473101)的研究成果之一。
1 开发背景与目标 文本挖掘和知识发现是知识发现研究中的一个重要分支。
文本挖掘(Textmining)一般定义为从文本文件中提取有趣的、不平凡的模式或知识的过程。
目前,文本挖掘的方法和应用研究已经成为比较活跃的研究领域。
开发出相应的计算机软件系统成为开展文本挖掘研究的必要条件。
鉴于此,笔者设计并实现了一个面向生物医学数据库和引文数据库的文本挖掘系统:书目信息共现挖掘系统XIANDAITUSHUQINGBAOJISHU 71 (BibliographicItemCo-OccurrenceMiningSystem,BI COMS)。
该系统所分析的主要对象包括:来自于权威的生物医学数据库———PubMed数据库中的主题词/副主题词共现关系;来自于引文索引数据WebofScience的引文同被引关系。
通过对这些共现数据的聚类分析和关联分析,挖掘出部分元数据之间的关联规则。
同时,也针对文献计量学的基本指标(如作者、期刊、发表年代等)的发文和引文频数进行统计分析,最终提供可视化的结果。
该系统开发的直接效果是为笔者开展国家自然科学基金课题提供基本工具,其长远意义则是为今后大量的文本挖掘和科学计量学的研究建立平台。
2 系统的实现方案与应用效果 本系统主要涵盖5个功能,分别为: (1)信息抽取模块(InformationExtraction):从目标数据库,即从PubMed数据库中自动下载XML格式的文献记录,解析并抽取元数据———医学主题词(Medi calSubjectHeading,MeSH)及其附主题词的组合; (2)矩阵预处理模块(MatrixPre-Process):按照高频主题词的语义关系,对MeSH以及ChemicalName进行语义筛选,控制聚类分析的粒度,产生用于文本挖掘的二维矩阵结构; (3)文本挖掘模块(TextMining):从二元矩阵中发现潜在的生物医学规则; (4)数据可视化模块(DataVisualization):以系统树图(Dendrogram)的方式来显示聚类分析后的元数据之间的关联关系,并显示元数据间距离曲线关系图; (5)规则接口模块(RuleInterface):储存从文本挖掘模块中获取的规则,并为今后建立面向生物医学领域的本体知识库奠定基础。
系统模块结构如图1所示。
2.1 信息抽取模块的设计 信息抽取模块主要负责数据下载和数据解析入库。
在数据下载设计中,通过网上的免费软件MedKit软件查询PubMed数据库,进而获得需要下载的文献序号列表,即PMID列表,再按照该列表以断点续传的方式下载论文数据[1]。
在数据解析的设计中,按照其文献数据的XML格式,设定抽取所需信息的模板,并按照模板对数据进行解析和完整性校验,该模块流程如图2所示。
图1 系统模块结构图总第168期 2008年 第8期72 现代图书情报技术图2 信息抽取流程图2.2 矩阵预处理模块的设计 矩阵预处理模块主要负责生成文本挖掘矩阵。
该模块首先通过一定的阈值对高频主题词进行截取,然后对高频主题词、高频化学物质进行类筛选,设定二元矩阵的行和列。
矩阵预处理模块也预留了数据导出的接口,可以将矩阵导出到其他数据统计软件(如SPSS)中进行进一步分析。
该模块的流程图如图3所示。
(1)阈值设定:当前用户所登录的数据集不为空。
查询当前数据集中大于等于指定阈值的高频主题词。
(2)高频化学物质:查询、截取高频化学物质,返回结果数与累计篇数,删除某个化学物质,导出化学物质列表为Excel文件。
前置条件为该用户所登录的数据集必须含有化学物质数据。
(3)主题词调整细节:显示主题词调整细节,可以在主题词体系结构表中按不同的层次对类进行合并,明确显示下位类主题词。
(4)共词矩阵:显示主题词共词矩阵,显示主题词-论文矩阵表格中非零表元的PMID序列,显示主题词共现图3 矩阵预处理模块流程图矩阵(共词矩阵)缩进排版矩阵格式,按照Txt、Excel、SPSS3种格式导出共词矩阵。
共词矩阵界面如图4所示:图4 共词矩阵界面2.3 文本挖掘模块的设计 文本挖掘模块完成从二元矩阵中发现潜在的生物医学规则。
为了对应不同的数据集和各自特点,文本挖掘模块需要对数据从二维或多维的角度进行分析。
该模块分为关联分析和聚类分析两个部分。
关联分析XIANDAITUSHUQINGBAOJISHU 73 通过最小支持度和最小可信度对二元矩阵进行关联分析,关联分析的程序流程如图5所示:图5 文本挖掘模块中关联分析流程图 关联分析数值设定:按照最小支持度、最小可信度和每页规则显示数目,进行基于Apriori算法的关联分析。
关联分析结果解释:显示Apriori算法关联分析后的规则结果,其中对于算法生成的关联分析结果可以进行手工检测。
聚类分析模块按照凝聚的方式,实现了层次聚类的算法,按照对各个文献集不同的要求设置相似系数和聚类计算方法。
凝聚的层次聚类算法可以体现多个生物医学主题词的多维关系,可以挖掘并发现更加复杂的潜在生物医学规则。
聚类分析是本生物医学数据库文本挖掘系统的主要文本挖掘手段,它不仅仅针对生物医学主题词,还可以针对化学物质名称进行挖掘。
该模块的详细设计如图6所示。
数据分析数值设定:在当前用户所登录的数据集中,按照距离度量系数(见表1)和聚类方法(见表2)的选项对当前数据集进行聚类分析,并显示元数据之间的拓扑结构。
2.4 数据可视化模块设计 数据可视化模块负责文本挖掘的结果图形显示,及其为用户提供获取规则的图形接口。
其中,文本挖掘模块中的层次聚类结果用系统树图的形式显示给用户,同时,聚类的先后次序由从山顶到山脚次序的碎石图表示。
从碎石图的聚类步骤,可以得到首先聚在一图6 文本挖掘模块中聚类分析流程图表1 聚类分析相似系数系数0EuclideanDistance系数1Bray-CurtisDistance系数2CanberraDistance系数3JaccardSimilarity系数4SorensenSimilarity系数5SimpleMatchingCoefficient系数6Baroni-UrbaniBuserCoefficient系数7MeanCensoredEuclideanDistance系数8OchiaiSimilarity系数9DiceSimilarity表2 聚类分析方法方法0SingleLinkage方法1CompleteLinkage方法2UnweightedArithmeticAverage方法3WeightedArithmeticAverage方法4UnweightedCentroid方法5WeightedCentroid方法6Ward’sMinimumVariance方法7SaitouandNeiNeighbourJoining类的几个生物医学主题词,结合其生物医学的实际意义,即可得到潜在的生物医学规则。
该模块的流程图如图7所示。
聚类系统树图:聚类系统树图按照从多类到少类聚合聚类的方式,生成聚类结果图,表达某一专题内的总第168期 2008年 第8期74 现代图书情报技术图7 数据可视化模块的流程医学主题词之间的多位层次关系。