当前位置:文档之家› 生物医学文本挖掘研究的体会

生物医学文本挖掘研究的体会


今后的方向
应用领域上,向生物信息学靠拢; 实行中,寻求获得经济效益的可能; 学科上,最终目标是知识发现; 方法上,探索本体论在医学领域中的应 用。
二、数据挖掘工具
文本挖掘的主要内容
1. 术语识别 2. 信息抽取 3. 发现关系
Text Mining Tools
Semantic Knowledge Representation/语义知识表征 项目,SKR / 美国国立医学图书馆,1998年启动 文本中所包含知识进行正确表达 利用美国国立医学图书馆现有的资源,尤其 是一体化医学语言系统(UMLS)的知识库和 SPECIALIST系统所提供的自然语言处理工具, 开发出可以表达生物医学文本的实用程序。
基础不等于研究内容 具体方法的使用(具体、数目)
这个库的开放特性使得读者在R统计程序语言 中免费扩展。只用10行代码来分析主题词的相 关性。对于生物信息学家和统计学家来说, MedlineR是建立更加复杂的文献数据挖掘应用 的基础。
MedlineR
为生物医学家和统计学家建立的文献数 据挖掘工具的免费资源库 MedlineR的源代码可以从 /pub/medlineR中获得。
取得的成果
方法是可行的。得到的规则。 开发出相应的数据挖掘平台。
– BICOMS – MeSH_Manager
建立A02 A02 A02 A02 A02 A03 A05 A07 A07 A07 A08 S1 Pathology Physiology Physiopathology Metabolism Metabolism Drug Effects Drug Effects Metabolism Drug Effects Drug Effects Drug Effects M2 G06 G11 G11 G04 D09 G06 A05 D27 G09 A07 G05 S2 null Physiology Physiology Physiology Metabolism Drug Effects Metabolism Pharmacology Drug Effects Physiology Drug Effects M1/S1 的病态结构 的生理功能 的异常功能 的代谢变化 的代谢变化 受药物作用 受药物作用 的代谢变化 受药物作用 受药物作用 受药物作用 SR 作为… 的结果 是...的位置 破坏 是...的位置 是...的位置 发生了 影响 受...影响 发生了 影响 发生了 M2/S2 代谢过程 的生理变化 的生理变化 的生理变化 的分解代谢 受药物作用 的代谢变化 的药理作用 受药物作用 的生理功能 受药物作用
/
http://milano.md.huji.ac.il/
/ch_index.html
三、申请课题的体会
– – –
• •
内容:创新是根本,对自己领域的掌握, 阅读相关文献 形式:内在的逻辑,对标书格式的理解。 评审中看到的问题:
背景知识
知识发现(KDD):从数据中正规提取隐
含的、以前未知的并且可能有用的知识。
数据挖掘:在数据中正规地发现有效的、 新颖的、潜在有用的、并且最终可以被 读懂的模式的过程。 一般可以把数据挖掘当作知识发现的一 个具体步骤。
背景知识
文本挖掘
Text Mining:文本挖掘 Literature Based Discovery (LBD):基于文献 的发现 Knowledge Discovery in Biomedical Literature (KDiBL):生物医学文献知识发现
ARBITER (Assess and Retrieve Binding Terminology)
– 从生物医学文本中抽取大分子键联关系。
Don R. Swanson的研究
雷诺氏病 文献
潜在的联系
食用鱼油 文献
血液粘稠度 红细胞脆性
Medline文献集合
闭合式的知识发现
ARROWSMITH 3.0
本课题目标
寻找发现规则的方法。 将获得规则用于某一领域,得到具体的关 系。 运用具体的关系开发出专题的知识库。
技术路线
下载专题文献 截取高频M/S 共词聚类分析
高频M/S组合 专家评价 发现新知识 开发知识库
形成待检规则 形成规则 Swanson模式
返回具体文献 得到关系 得不到关系
分析样本:下载文献
三个层次
– 微观层次:各个大类 下的10个末级主题词 – 中观层次:针对每一 种副主题词进行检索 – 宏观层次 :直接以大 类名为检索策略
/dan/medkit/
关键点
1. 确定高频主题词截取阈值,共词聚类分 析最佳分组数目,伪F检验。 2. 候选规则检验。规则是否成立。 3. 规则是否可靠?专家评分,敏感度等。 4. 不成立组合的分析:swanson模式,关系? 5. 知识库开发。
开放式的知识发现
BITOLA http://www.mf.uni-lj.si/bitola/
输入单个的概念(疾病A),找到该概念的第一层相 关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关 概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾 病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基 因、药物或者神经科学。
背景知识
Cimino的研究
哥伦比亚大学。 如果在一篇文献纪录中同时存在“疾病类主题词/化学 诱导副主题词”和“药物类主题词/副作用副主题词”这 样的组合的话,那么可以建议该疾病由该化学物质(药物) 引起。 If <Disease>/chemically induced AND <Chemical>/adverse effects Then <Disease>is Caused by <Chemical>. 形成规则。 将这样的规则运用的具体的其他文献集合中,就会发 现文献中报道了大量的具体疾病是由某一种具体药物引起 的。形成关系。
背景知识
规则的文字形式: “如果某一文献记录中含有属于1类的主题词A并且 和副主题词X在一起,AND 该引文还包括属于2类的主题词B并且和副主题词Y在 一起,那么 建议A和B通过关系Z相关(A和B有Z关 系)。” 根据Medline主题词和副主题词在同一篇文献中 出现的情况,建立起主题词和副主题词之间的关联 规则,然后将这些规则返回到具体的文献中形成了 具体概念之间的关系。
MataMap 和SemRep
MetaMap最初是为了改善MEDLINE检索而 开发出来的,用通过MetaMap发现的超级 词表概念来代替文本。
EDGAR和ARBITER
EDGAR (Extraction of Drugs, Genes and Relations)
– 在MEDLINE中确定药物、基因关系的程序。 – 以前面几项工具为基础,以癌症治疗有关的药物 和基因作为研究的主要领域,从文本中确认药物、 基因和细胞株的名称。
(1)我们使用血液过滤方法来治疗伴有难治性高血钾的地高辛 过量 (2)命题(proposition),大写的谓词(如TREATS、CAUSES等) 表示的是个体之间的关系,这种关系都是在UMLS语义网络 中所规定的语义关系;每一个体也是来自于UMLS超级词表 中的规范化的概念。 命题的集合组成了对文本(1)的语义表达,从上面例子可以 看出,尽管这种表达并不完全,但是还是把文本中的主要概 念及其关系表达出来了。

可作为生物武器的潜在病毒
能够成为生物武器:致病性,传播性。同时涉及到病 毒这两个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力
– 病毒的昆虫媒介传播(insect vectors) – 空气传播(air) – 在空气中的稳定性(stability of viruses in air)
MedlineR
MedlineR
结果是可视化的网状结构:每个节点代 表一个基因,每条边代表一个文献中的 联系。Pajek
MedlineR
下载R统计软件(包括XML程序包) 下载Pajek软件 复制粘贴MedlineR的命令 填入需要分析的基因名称 运行R 运行pajek
http://services.nbic.nl/cgi-bin/copub/CoPub.pl
通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了 三个有意义的B-LIST(病毒的集合),通过进一步的统 计学分析和查阅文献,最终找出相对有意义的病毒(B)
发现科研机构间潜在的合作方向
利用Arrowsmith程序,发现美国斯坦福大学和哥 伦比亚大学在医学信息学研究领域的潜在合作 方向 尝试将这种方法运用到寻求发现科研机构合作 与交流的领域中。 结果表明,利用Arrowsmith所挖掘的科研合作与 交流的内容详细、明确,能体现出研究所使用 的具体方法和侧重点,能更好地体现出两个机 构研究内容的相似点(可以合作之处)和不同 点(可以相互交流、学习之处)。
生物医学文本挖掘研究的 体会
中国医科大学 信息管理与信息系统(医学)系
主要内容
1. 开展的课题 “运用文本数据库中元数据关联规则 进行知识发现的研究” 文本挖掘工具 课题申请的体会
1. 2.
运用文本数据库中元数据关联规则 进行知识发现的研究
文本数据库:PubMed 元数据:关于数据的数据 ,MeSH主题词 关联规则:association rule,在同一个事件中出 现的不同项的相关性,如在一次购物活动中所 购商品的相关性(尿布→啤酒:30%~40%) 事件:一篇论文;不同项:MeSH主题词 MeSH主题词在同一篇文章中出现有规律吗? 可否利用这种关联规律来发现知识?
BITOLA
BITOLA:open
相关主题