当前位置：文档之家› 生物信息学数据挖掘

生物信息学数据挖掘

大部分数据库是可以免费下载的公用数据库。
2018/7/24
生物信息学数据挖掘
4
生物信息学中心

1.NCBI：美国国立生物技术信息中心(The National Center Biotechnology
Information)，设立了公共数据库，开发软件工具分析核酸序列、基因组序列、
基因表达序列、蛋白序列等提供了大量与基因、蛋白序列有关的信息与文献资料。
生物信息学数据挖掘
2018/7/24
生物信息学数据挖掘
1
主要内容

数据挖掘的相关概念

数据挖掘的经典案例
生物信息学数据挖掘领域的现状、方向课题的前景
2018/7/24
生物信息学数据挖掘
2
生物信息数据库

(1) 综合数据库如EMBL (欧洲) 、GenBank(美国) 、DDBJ (日本) 、TIGR Database) (2) DNA 序列和结构数据库(BioSino (中国) 、CUTG、EPD、SCPD 等) (4) RNA 序列和核糖体数据库( SCOR、NCIR、ncRNA 等) (5) 基因图谱数据库(RHdb、Mouse RH、GDB) (6) 人类基因组相关数据库( Ensembl 、RefSeq、I.M.A. G. E 等) (7) 其他物种基因组数据库(包括病毒、原核生物、真菌、昆虫、鱼类及其它高等动物的基因组数据库) (8) 蛋白质序列数据库(SWISS - PROT、TrEMBL 、PIR 等) (9) 蛋白质结构、分类和相互作用数据库(PDB、CSD、3Dee 等)

2.EBI：欧洲生物信息研究(The European BioinformationIntitute)，提供与
生物学有关的各种信息、数据库、软件工具等

3.ExPASy：(Expert Protein Analysis System)日内瓦大学分子生物学服务
站，提供与蛋白有关的各种在线工具。提供数据库中的链接，同时提供许多用
生物信息学数据挖掘 6
2018/7/24
KDD的基本过程
2018/7/24
生物信息学数据挖掘
7
数据挖掘(data mining)
数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。
5
2018/7/24
KDD(Knowledge Discovery in Database)

KDD(Knowledge Discovery in Database) ,是指从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘出隐藏的有用信息(知识) 的技术。它被广泛的应用到各个领域,挖掘数据之间潜在的模式,找出有价值的信息。KDD 的基本过程如图1 所示,由以下部分组成: (1) 数据预处理(包括数据清理、数据集成、数据变换、数据归纳,为数据挖掘做准备 (2) 数据挖掘(核心步骤,使用智能方法提取数据模式) (3) 模式评估(根据某种度量,识别表示知识的真正模式) (4) 知识表示(使用可视化知识表示技术,向用户提供挖掘的结果——— 知识) 可以看出,数据挖掘是KDD 的核心部分,是采用机器学习、运筹学、统计方法等进行知识发现的阶段。但是从广义上讲,数据挖掘的定义就是从海量数据中提取知识的过程,也就等同于KDD
2018/7/24
生物信息学数据挖掘8Βιβλιοθήκη 数据中搜索、发现知识(KDD)
2018/7/24
生物信息学数据挖掘
9
数据挖掘的功能

1．分类（classification）按照分析个体的属性状态分别加以区分，并建立类组（class）。例如，将信用申请者的风险等级分为高风险、中风险和低风险三类。使用的方法有决策树（decision tree）、判别分析（discriminant analysis）、类神经网络（artificial neural network），以及记忆基础推理（memory-based reasoning）等。 2．估计（estimation）根据已有的数值型变量和相关的分类变量，以获得某一属性的估计值或预测值。例如，根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、 Logistic回归及类神经网络等。 3．预测（prediction）根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如，由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神经网络等。 4．关联分组（affinity grouping）从所有对象决定哪些相关对象应该放在一起。例如，超市中相关的洗漱用品（牙刷、牙膏、牙线）放在同一货架上。在客户营销系统上，这类分析可以用来发现潜在的交叉销售（cross-selling）商品聚类，进而设计出有价值的组合商品集合。
此外,还有比较基因组学和蛋白质组学数据库,基因表达数据库,基因突变、病理和免疫数据库,代谢途径和细胞调控数据库,农林牧相关数据库,医学药学数据库,生物多样性和分类学数据库等等。

2018/7/24
生物信息学数据挖掘
3
专门数据库目录网站

《核酸研究》2000年开始创建了生物信息学数据库目录。 DBCat：法国生物信息中心于1997年建立的数据库目录。到目前为止收录500多个数据库。目前，绝大部分核酸和蛋白质数据库由美国、欧洲和日本的３家数据库系统产生。它们共同组成国际核酸序列数据库，每天交换数据，同步更新
于该方面查询的文件，并与本站点相链接。

4.BioSino：上海生命科学院生物信息中心，提供了有关生物信息学方面的新闻、论文、相关数据库、软件等。

5.CBI：北京大学生物信息中心，介绍了丰富的生物信息学基本知识，国内外生物信息学网站，常用的生物信息学数据库的介绍和相关的软件等。生物信息学数据挖掘

e商务文档

生物信息学数据挖掘

相关文档推荐：