当前位置:文档之家› 知识图谱研究概况及其在中医药领域的应用

知识图谱研究概况及其在中医药领域的应用

知识图谱研究概况及其在中医药领域的应用作为科学计量学和信息计量学的新发展方向,知识图谱技术已经广泛应用到金融、工业、医学等领域,成为真实世界研究中的热点问题。

本文就知识图谱的概念和特点、绘制流程、现有软件及其在中医药领域的应用现状、发展前景等进行文献梳理,以期为中医药领域知识图谱相关研究提供参考。

Abstract:As the new development of scientometrics and informetrics,knowledge graph has infiltrated into the financial,industrial and medical fields,and become a hot issue in the real world research. In this article,the concept and features of knowledge graph,construction and the existing softwares,the application status and development prospect in the TCM field were reviewed,which may provide references for research on the knowledge graph in the TCM field.Key words:knowledge graph;TCM;application prospect;review随着2012年谷歌第一版知识图谱的发布,特定领域的知识图谱构建成为真实世界研究中的热点问题。

从搜索引擎优化,到新药发现,知识图谱在学术界掀起了一股热潮,并渗透到金融、工业和医学等领域。

这种以科学学为基础,涉及应用数学、信息学及计算机学等多学科的可视化技术,成为科学计量学和信息计量学的新发展方向。

本文就知识图谱的概念、特点及其在中医药领域的应用现状、前景进行梳理,以期为中医药领域知识图谱相关研究提供参考。

1 知识图谱概念及特点1.1 知识图谱的概念在知识图谱的定义上,陈悦等[1-2]从其功能角度进行阐释,认为知识图谱能够可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入。

杨国立等[3]从理论和方法层面,将其定义为把应用数学、计算机科学、科学学、信息科学等学科的理论和方法与科学计量学引文分析、共现分析、社会网络分析等方法结合,用可视化的图谱形象地揭示科学发展进程和结构关系的一种研究方法,属于科学计量学的范畴。

杨思洛等[4]提出知识图谱有广义与狭义之分,广义上可包括生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的地理信息系统(GIS)图、模拟人脑的神经网络图、各种金属图谱等;狭义的知识图谱主要是运用文献计量学方法,通过文献知识单元分析来可视化科学知识的结构、关系与演化过程,包括“科学图”“文献计量图”“文献图”“知识图谱”等。

简言之,知识图谱是随着计算机技术的发展,应用数学算法来简化知识单元结构以达到可视化知识结构关系的一种方法,是显示科学知识的发展进程与结构关系的一种图形,是一种有效的知识管理工具。

1.2 研究对象知识图谱所描绘的对象主要包括:①从事科学技术活动和作为知识载体的人,包括科学家、技术专家、项目组、实践团体或某一知识领域共同体;②显性或编码化的知识,如论文、专利、所学课程、数据库等;③过程或方法,包括研究问题和解决问题的过程或方法、组织的业务流程,以及相关的知识投入等。

知识图谱主要源于三大领域:①计算机科学领域的数据、信息、知识与知识域可视化研究;②图书情报领域的引文分析可视化、知识地图和知识网络等研究;③复杂网络系统和社会网络分析的研究。

上述领域的研究方向和内容正在走向融合[5]。

2 知识图谱绘制流程参考国内外已有研究,目前知识图谱的绘制主要包括以下几个版块[4,6-7]。

数据检索:绘制知识图谱的基础,其数据源在传统文献数据库的基础上逐渐扩展到出版商、机构联盟等机构网站的网络日志、用户记录、点击流数据等。

数据清洗:即对数据的预处理,包括查重、勘误等,进行历时或分时段对比分析时需要对数据進行分段处理;若样本数据过大或分析目的不同,则需要进行有代表性的抽取。

构建关系矩阵:选择要分析的知识单元,如关键词、题名、作者等,构建其相互关系,常用方法有共词分析、共引分析、共作者分析、书目耦合分析、期刊耦合分析等。

数据标准化:根据数据间的相似度对数据进行标准化,常用方法有集合论方法(Cosine、Pearson、Spearman、Ochiai、Jaccard指数等)和概率论方法(合力指数、概率亲和力指数等)。

数据简化:运用因子分析、多为尺度分析、自组织映射图、寻径网络图谱、聚类分析、潜在语义分析、三角法等方法处理数据以更好地展示各数据单元。

可视化展示:是知识图谱构建过程中最重要的一环,通过运用不同的算法,调整相关参数,构建整个图谱。

可通过不同模拟实现可视化,如几何图、战略图、冲积图、主题河图、地形图、星团图、簸幅图等。

图谱解读:采用历时分析、突变检测、空间分析、网络分析等方法对图谱进行解读,同时需要结合研究者的经验、知识、学术背景、学术功底等。

3 知识图谱绘制软件目前可用于知识图谱绘制的软件非常丰富,根据主要功能可分为2类[4]:一类为通用软件,如SPSS、社会网络分析软件Ucinet和Pajek、词频分析软件Wordsmith Tools和GIS相关软件;另一类为绘制知识图谱的专用软件,如CiteSpace、Bibexcel、Gephi、VOSviewer、VantagePoint、Network Workbench Tool、NWB、Sci2 Tool、In-SPRIE、SciMAT、Histcite、GeoTime、ColPalRed、Guess、Leydesdorff、Jigsaw、Carrot等。

分析各软件的特点[6,8-9]可以看出,随着知识图谱的绘制软件越来越多,一方面其支持的数据格式愈发多样,相互之间的兼容性也逐步增强;另一方面,在可视化效果方面也日趋完善,知识展示的真实度、准确度逐渐提高。

详见表1。

4 知识图谱在中医药领域的应用目前知识图谱的研究中,国外学者主要集中在2个研究方向[10]:部分偏于技术研究,包括可视化工具和算法的开发;部分以应用为主,利用科学计量学理论及相关方法、知识图谱软件等进行分析研究。

国内研究也可分为2个方向:部分以科学计量学为理论基础,利用可视化方法研究科学学与管理学、科学技术合作等领域;部分以电子资源数据库为数据源,通过可视化方式展示某一学科的研究前沿和发展动向。

4.1 应用现状医学领域各学科中采用知识图谱理论与方法进行的研究尚处于起步阶段,中医药领域已有部分学者开展了相关研究。

在学科层面,赵蓉英等[11]以Web of Science为数据来源,运用CiteSpace对中医研究领域的研究热点进行了可视化探索。

徐浩等[12]以我国医药卫生领域中文核心期刊文献为数据来源,对我国中医学科交叉领域的研究热点进行了可视化分析,但研究仅限于中医学与医药卫生领域之间的合作。

杨秦等[13]采用共词分析及社会网络方法对中医外科疮疡领域的研究主题及分布进行了探索。

具体在疾病方面,谭火媛等[14]基于中国知识资源总库(CNKI)收录的近10年中医药治疗高血压相关文献,对前沿与热点研究进行了可视化分析。

王淑斌等[15]对中西医治疗2型糖尿病的国内外研究进行了系统梳理。

在证候方面,刘俊丽等[16]采用文本挖掘技术,通过数据清洗、实体抽取、构建共词矩阵并采用Ucinet软件绘制乙型肝炎热点研究知识图谱,分析了子模块中的中医证候描述及疾病名称。

秦义等[17-18]基于CiteSpace软件对气虚证、血瘀证证候诊断标准的相关研究进行了可视化分析。

在中药材方面,郭栋等[19]通过关键词共现网络和聚类图对中药枸杞的育种、种植、采收、加工、储存等5个领域的研究进行了热点分析。

在治疗措施方面,李曌嫱等[20]对针灸治疗腰椎间盘突出症常用腧穴的演变过程及施穴治疗的变迁进行了可视化分析,胡松洁等[21]运用Ucinet软件对“五行音乐”疗法的发展脉络进行了梳理。

此外,张静[22]基于CNKI核心期刊文献关键词,探讨了中医药专业人才培养热点主题。

陈姗姗等[23]对中医药传播发展的研究文献进行了可视化分析,荣光等[24]基于中医电子病历研究领域的相关文献,构建了该领域的研究者、研究机构、关键词的共现网络。

上述研究主要集中在不同领域的研究现状及热点分析,多以期刊文献为数据来源,多采用CiteSpace软件构建研究者、研究机构、关键词等信息的共现图和聚类图,从不同侧面宏观解释了中医学信息的整体结构特点。

但针对特定研究目标,尚未形成一套明确的建模策略及技术,导致已有研究结果中也有差异甚至矛盾之处[5]。

因此,中医药领域知识图谱理论尚处在针对各学科结构宏观概述阶段,急需解决对多层信息深度整合的知识图谱建模策略及其技术。

近年来,已有学者在中医药知识图谱构建方法与标准化流程方面进行了尝试和探索。

于彤等[25]提出以中医药学语言系统(TCMLS)为框架,以中医药领域现有的术语和数据库资源为内容,构建大型知识图谱的构想,并进行了探索和实践,但尚未实现中医药知识资源的有效整合及提供全面、及时、可靠的知识服务。

阮彤等[26]基于文本抽取、关系数据转换及数据融合等技术提出了中医药知识问答和辅助开药领域的知识图谱半自动化构建流程。

此外,该课题组对知识图谱进行了形式化定义,详细描述了数据驱动的增量式知识图谱构建方法,同时阐述了以此方法所构建的中医药知识图谱在辅助开方领域的应用,但未涉及其它领域[27]。

贾李蓉等[28]以中药知识图谱为例,从数据来源、研究内容、图形化展示等方面探讨如何构建中医知识图谱,但其应用尚局限于浏览检索方面,对多种数据资源间的映射及数据元等标准未进行详细论述。

张德政等[29]提出了基于本体的中医核心知识图谱表示及其构建方法,对中医本体与知识图谱的映射方法进行了探索,为中医知识图谱的构建提供了较系统的方法流程,但对多源数据的获取技术及中医师临床实际诊疗数据的研究未进行深入研究。

王华珍等[30]以中医慢性胃炎数据可视化处理为例,引入随机森林(RF)技术进行可视化前的数据预处理,根据高维中医数据的特征进行变换和降维,使数据在低纬空间呈现良好的分离性,从而增强了数据的可视化效果。

4.2 应用前景知识图谱研究已经渗透到金融、医学和工业等领域,对知识图谱定量与定性特征的科学理解已成为大数据时代科学研究中一个极其重要的挑战性课题。

相关主题