当前位置:文档之家› 生物信息学数据挖掘

生物信息学数据挖掘




大部分数据库是可以免费下载的公用数据库。
2018/7/24
生物信息学数据挖掘
4
生物信息学中心

1.NCBI:美国国立生物技术信息中心(The National Center Biotechnology
Information),设立了公共数据库,开发软件工具分析核酸序列、基因组序列、
基因表达序列、蛋白序列等提供了大量与基因、蛋白序列有关的信息与文献资 料。
生物信息学数据挖掘
2018/7/24
生物信息学数据挖掘
1
主要内容

数据挖掘的相关概念


数据挖掘的经典案例
生物信息学数据挖掘领域的现状、方向 课题的前景
2018/7/24
生物信息学数据挖掘
2
生物信息数据库



(1) 综合数据库 如EMBL (欧洲) 、GenBank(美国) 、DDBJ (日本) 、TIGR Database) (2) DNA 序列和结构数据库(BioSino (中国) 、CUTG、EPD、SCPD 等) (4) RNA 序列和核糖体数据库( SCOR、NCIR、ncRNA 等) (5) 基因图谱数据库(RHdb、Mouse RH、GDB) (6) 人类基因组相关数据库( Ensembl 、RefSeq、I.M.A. G. E 等) (7) 其他物种基因组数据库(包括病毒、原核生物、真菌、昆虫、鱼类及其它 高等动物的基因组数据库) (8) 蛋白质序列数据库(SWISS - PROT、TrEMBL 、PIR 等) (9) 蛋白质结构、分类和相互作用数据库(PDB、CSD、3Dee 等)

2.EBI:欧洲生物信息研究(The European BioinformationIntitute),提供与
生物学有关的各种信息、数据库、软件工具等

3.ExPASy:(Expert Protein Analysis System)日内瓦大学分子生物学服务
站,提供与蛋白有关的各种在线工具。提供数据库中的链接,同时提供许多用
生物信息学数据挖掘 6
2018/7/24
KDD的基本过程
2018/7/24
生物信息学数据挖掘
7
数据挖掘(data mining)
数据挖掘(Data mining),又译为资料探勘、数据采 矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘 一般是指从大量的数据中自动搜索隐藏于其中的有 着特殊关系性(属于Association rule learning)的 信息的过程。
5
2018/7/24
KDD(Knowledge Discovery in Database)




KDD(Knowledge Discovery in Database) ,是指从存放在数据库、数 据仓库或者其他信息库中的大量数据中挖掘出隐藏的有用信息(知识) 的技术。它被广泛的应用到各个领域,挖掘数据之间潜在的模式,找出 有价值的信息。KDD 的基本过程如图1 所示,由以下部分组成: (1) 数据预处理(包括数据清理、数据集成、数据变换、数据归纳,为数 据挖掘做准备 (2) 数据挖掘(核心步骤,使用智能方法提取数据模式) (3) 模式评估(根据某种度量,识别表示知识的真正模式) (4) 知识表示(使用可视化知识表示技术,向用户提供挖掘的结果——— 知识) 可以看出,数据挖掘是KDD 的核心部分,是采用机器学习、运筹学、统 计方法等进行知识发现的阶段。但是从广义上讲,数据挖掘的定义就是 从海量数据中提取知识的过程,也就等同于KDD
2018/7/24
生物信息学数据挖掘8Βιβλιοθήκη 数据中搜索、发现知识(KDD)
2018/7/24
生物信息学数据挖掘
9
数据挖掘的功能

1.分类(classification) 按照分析个体的属性状态分别加以区分,并建立类组 (class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用 的方法有决策树(decision tree)、判别分析(discriminant analysis)、类神经网络 (artificial neural network),以及记忆基础推理(memory-based reasoning)等。 2.估计(estimation) 根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如, 根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、 Logistic回归及类神经网络等。 3.预测(prediction) 根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去 刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神 经网络等。 4.关联分组(affinity grouping) 从所有对象决定哪些相关对象应该放在一起。例如,超市中相关的洗漱用品(牙刷、 牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交 叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。
此外,还有比较基因组学和蛋白质组学数据库,基因表达数据库,基因突变、病 理和免疫数据库,代谢途径和细胞调控数据库,农林牧相关数据库,医学 药学数据库,生物多样性和分类学数据库等等。


2018/7/24
生物信息学数据挖掘
3
专门数据库目录网站

《核酸研究》2000年开始创建了生物信息学数 据库 目录。 DBCat:法国生物信息中心于1997年建立的数据库目 录。到目前为止收录500多个数据库。 目前,绝大部分核酸和蛋白质数据库由美国、欧洲和 日本的3家数据库系统产生。它们共同组成国际核酸 序列数据库,每天交换数据,同步更新
于该方面查询的文件,并与本站点相链接。

4.BioSino:上海生命科学院生物信息中心,提供了有关生物信息学方面的新 闻、论文、相关数据库、软件等。

5.CBI:北京大学生物信息中心,介绍了丰富的生物信息学基本知识,国内外 生物信息学网站,常用的生物信息学数据库的介绍和相关的软件等。 生物信息学数据挖掘
相关主题