数据挖掘技术在中医药现代化研究中的应用吴立旗1童文新2徐凤芹3摘要:信息技术的发展促进越来越多的传统中医药数据建成数据库,这无疑将会大大加快中医药现代化研究的进程。
然而,随着数据量的激增,以及中医药数据特有的不完整性、表达形式多样化、数据的规范性较差等特点,传统的一些数据统计方式已比较难以有效的得出可靠结论。
在解决复杂性、非线性问题方面,数据挖掘技术因其可从大量的、不完全的、有噪声的、模糊的随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识,所以将数据挖掘技术应用于中医药研究已经逐渐成为当前中医药科研领域的共识和一个新的热点。
本文对当前数据挖掘在中医诊断、证候分析、方剂配伍以及中西医结合领域方面的一些应用进行了综述,认为寻找、开发出灵敏度、准确度均较高的适合中医药领域研究的数据挖掘算法至关重要,数据挖掘技术可望成为发展中医药现代化的重要工具。
传统的中医治疗是在辨证论治思维模式的指导下确立的理-法-方-药的治疗体系,是中医学的特色和精髓。
然而,这种传统的中医辨证方法深受医师的经验、水平和学术流派等多方面因素的影响,致使中医的辨证论治主观性强、可重复性差,严重束缚了中医学的发展与推广。
因此,如何将中医学从依赖于经验的不精确状态发展为定量的精确科学就成为中医现代化的一大挑战。
随着现代计算机技术的迅速发展,越来越多的中医药数据库被建立,数据量急剧增加,人们迫切希望能够采用新的技术对这些数据进行提炼,从中寻找有用的知识和规律,对中医的诊断、辨证、用药等方面进行规范化,从而促进中医药事业的发展与推广。
面对中医药数据的不完整性、表达形式多样化、数据的规范性较差等特点,选择可以处理大量不完整的模糊数据的方法对中医药领域的数据进行分析显得至关重要。
而数据挖掘就是从大量的、不完全的、有噪声的、模糊1作者简介:吴立旗,女,北京中医药大学博士研究生在读2作者简介:童文新,女,中国中医科学院西苑医院高干科副主任医师3通讯作者:徐凤芹,女,中国中医科学院西苑医院,高干科主任医师,博士生导师Email:xufengqin2000@y 的随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识。
近年来,数据挖掘技术已经逐渐得到中医药研究领域的关注,已有不少的研究采用数据挖掘技术得到了很多非常有意义的结果。
本文通过对当前已经发表的文献进行检索,对数据挖掘技术在中医药研究的应用进行了综述,希望能够对促进数据挖掘技术在中医药研究更深入、更广泛的应用有所裨益。
目前数据挖掘技术在中医药研究的应用可大致分为以下几个方面;1 在中医诊断、证候分析中的应用近十年来,数据挖掘技术以其解决复杂性、非线性问题的良好能力被应用在中医诊断手段客观化、诊断规则提取和证候诊断模型的研究上,显示出良好的前景[1]。
证候研究主要包括证候的基本特征、诊断标准与规范化等研究[2]。
传统的统计方法基于正态分布假设,要求变量间相互独立并采用线型模型,中医证候复杂的非线性关系使得应用传统的统计方法无法深刻反映出中医的证候分布规律。
数据挖掘可通过大量的临床数据模拟中医专家的诊断推理过程,发现证候和症状之间的关系[2]。
王学伟等[3]应用贝叶斯网络方法, 通过对474例血瘀证临床诊断数据进行血瘀证定量诊断与分析,结果发现血瘀证有7个关键症状, 通过定量计算其对血瘀证诊断的贡献度,建立了简单的贝叶斯分类器模型,此模型对血瘀证诊断的准确率达到了96.6%;该研究认为,从对血瘀证数据的分析结果来看,贝叶斯网络技术适合于解决中医定量诊断问题,应用贝叶斯网络等数据挖掘技术,有助于摸索出中医定量诊断的新方法,将有可能带来中医定量诊断研究的突破。
徐蕾等[4]采用基于信息熵的决策树C4.5算法建立了慢性胃炎的中医辨证模型,筛选出对辨证分型有意义的26个因素并按其重要程度排序,建立了能区分各类证型并具有较高灵敏度和特异度的中医辨证模型;研究者认为决策树C4.5算法建立的模型效果较好,可用于慢性胃炎中医证型的鉴别诊断。
李建生[5]、李亚[6]等人采用人工神经网络、模糊系统,获得有关疾病常见证候诊断标准的自适应模糊推理系统模型,结果经测试数据检验,诊断符合率较高,从而认为其模型适用于中医证候诊断标准的研究且方法合理。
谢雁鸣等[7]采用决策树方法对原发性骨质疏松症的阴虚和阳虚两个证候因素进行探讨,结果显示训练集的判误率较低,同时采用聚类的方法得出了原发性骨质疏松症的7个主要证候类型。
孙继佳[8]等人采用粗糙集与支持向量机结合的数据挖掘方法对所收集的293例中医肝硬化患者进行辨证分型研究,结果采用粗糙集约简后其辨证的准确率为84.4%左右,此种数据挖掘方法在中医辨证方面有较高的可靠性。
2 在方剂配伍中的应用所谓方剂配伍,可以简单理解成把两种以上的中药配在一起使用,能够发挥出中药的协同作用。
蒋永光[9]认为数据挖掘适用于方剂配伍规律研究,因为方剂是集中医之理、法、方、药为一体的数据集合,具有以“方-药-证”为核心的多维结构,数据信息量巨大,而且中医辨证论治充满非线性思维,“方-药-证”间具有多层关联,数据挖掘能以线性和非线性方式解析数据,能进行高层次的知识整合,又善于处理模糊和非量化数据,因而具有解决这一问题的技术特征和条件。
采用数据挖掘技术进行中药方剂配伍规律的研究,既能为中医新药的临床和实验研究提供目标和思路,减少盲目性,缩短研究周期;同时又能为大量古今验方研究探索出一条有价值的研究途径和方法[9]。
目前,在研究方剂配伍中的药对及药组间规律时,大多数学者[6, 10-13]均采用关联规则的数据挖掘方法对其进行研究,并得出了对临床有指导意义的结论,也证实了关联规则的挖掘方法在方剂配伍中应用的可行性。
姚美村等[10]应用关联规则的方法,在单味药层次上进行消渴病复方组成药味之间的关联模式进行研究,结果发现不同专家在针对不同症状的治疗方法与对消渴病的认识和治疗原则基本一致,他认为数据挖掘技术能为核心处方的提取提供技术支持。
陈波等[11]采用关联规则技术对李东垣脾胃方的配伍规律进行分析,总结出李东垣常用的药对及药组及其随症加减的用药规律,当然,如果想要生成一个可操作的数据挖掘系统,还需要足够的数据集支持进行测试、验证、训练,才能不断提高关联分析的准确率。
张承江等人[12]收集了中医古籍文献中有名称的中医肾病治疗方剂,并建立相应的数据库,然后应用关联规则挖掘算法对该数据库进行复方配伍规律的研究,提出了一种肾病中医治疗信息的关联规则挖掘算法,实验结果证明该算法是实用而有效的。
3 在现代中西医结合领域中的应用近年来,随着中医、西医、中西医结合在国内并存局面的出现,中医临床遣方用药模式出现多元化,辨病论治与辨证论治相结合,微观辨证与宏观辨证相结合。
如何分析病、证、方、药之间的关系,并从中分析其制方的思维模式,具有重要的意义[13]。
龚燕冰等[14]以2501例2型糖尿病的临床数据运用贝叶斯网络法分析,发现空腹血糖异常患者以阴虚热盛多见,餐后2h血糖异常患者以阴虚多见,糖化血红蛋白异常患者以阴虚热盛多见,血脂异常者以气虚为主,血压异常者伴见血瘀。
结果他们认为通过统计学方法得出的结论基本符合中医理论和临床实际,所得中医结论对临床有一定的指导意义。
李靖[15]等人采用关联规则对IgA肾病患者辨证分型与临床症状、肾穿病理检查结果等临床资料进行相关探讨,结果发现不同证型,有不同的免疫复合物的沉积,显示IgA肾病中医证候与临床、病理间的相关性。
总结与讨论随着数据挖掘算法的不断完善,数据挖掘技术在中医药领域的运用逐渐增多,也取得了一定的成果,尤其是关联规则在中药配伍中的应用日趋完善,挖掘出的药对及药物组合符合中医辨证规律,对临床用药有一定的指导意义。
但因数据挖掘大多应用于商业领域,开发出的多数模型都是针对商业领域所遇到的问题,用来帮助管理者进行商业决策,所以目前应用在中医药领域的数据挖掘方法还较局限,大多集中在关联规则、聚类分析、决策树、神经网络等。
因此,寻找、开发出灵敏度、准确度均较高的适合中医药领域研究的数据挖掘算法至关重要。
随着数据挖掘中各种模型的广泛应用,数据挖掘技术可望成为发展中医药现代化的重要工具。
参考文献:[1]. 吴荣, 王阶. 数据挖掘在中医药领域中的应用进展.辽宁中医杂志2009; 36(02):314-315.[2]. 杨钧, 刘建平, 张颖等. 基于数据挖掘技术的中医药科研方法的研究. in 中华中医药学会中医药传承创新与发展研讨会. 2007. 中国新疆乌鲁木齐.[3]. 王学伟, 瞿海斌, 王阶. 一种基于数据挖掘的中医定量诊断方法.北京中医药大学学报2005; 28(01): 4-7.[4]. 徐蕾, 贺佳, 孟虹等. 基于信息熵的决策树在慢性胃炎中医辨证中的应用.第二军医大学学报2004; 25(09): 1009-1012.[5]. 李建生, 胡金亮, 王永炎. 基于2型糖尿病数据挖掘的中医证候诊断标准模型建立研究.中国中医基础医学杂志2008; 14(05): 367-370.[6]. 李亚, 胡金亮, 李素云等. 基于数据挖掘的弥漫性肺间质疾病中医证候诊断模型建立研究.辽宁中医杂志2010; 37(12): 2333-2335.[7]. 谢雁鸣, 朱芸茵, 葛继荣等. 基于临床流行病学调查的原发性骨质疏松症中医基本证候研究.世界科学技术-中医药现代化2007; 9(02): 38-44.[8]. 孙继佳, 苏式兵, 陆奕宇等. 基于粗糙集与支持向量机的中医辨证数据挖掘方法研究.数理医药学杂志2010; 23(03) : 261-265.[9]. 蒋永光, 胡波, 刘娟等. 方剂配伍的数据挖掘可行性探索.四川中医2004; 22(08): 25-28.[10]. 姚美村, 艾路, 袁月梅等. 消渴病复方配伍规律的关联规则分析.北京中医药大学学报2002; 25(06): 48-50.[11]. 陈波, 蒋永光, 胡波等. 东垣脾胃方配伍规律之关联分析评述.中医药学刊2004; 22(04):611-612.[12]. 张承江, 闫朝升, 宋立群. 中医肾病治疗信息中关联规则的挖掘算法.黑龙江大学自然科学学报2005; 22(06): 842-845.[13]. 刘建平, 张柯欣, 杨钧. 数据挖掘技术及其在中医药领域中的应用.辽宁中医药大学学报2007; 9(06): 203-204.[14]. 龚燕冰, 倪青, 高思华等. 2型糖尿病主要理化指标与中医证候相关性的贝叶斯网络分析.中华中医药杂志2010; 25(01): 31-33.[15]. 李靖, 王硕仁, 徐冰等. 基于关联规则的IgA肾病中医证候与病理相关性的探讨.北京中医药2011; 30(09): 653-655.。