生物序列的数据库信息检索
molecular function; cellular component; biological process;
Gene Ontology
/
相互作用的蛋白质数据库 DIP
收集了由实验验证的蛋白质-蛋白质相互作 用; 包括蛋白质的信息、相互作用的信息和检测 相互作用的实验技术三个部分; 用户可以根据蛋白质、生物物种、蛋白质超 家族、关键词、实验技术或引用文献来查询 DIP数据库;
RefSeq: The Reference Sequence Database 蛋白质序列数据库
UniProt (Swiss-prot & TrEMBL, PIR)
基因组数据库: Ensembl
NCBI数据资源
Nucleotide: 核酸序列数据库 PubMed: 生物医学科学文摘数据库 GEO:基因表达谱数据库。收集存储微阵列基因 表达数据 Protein: 蛋白质序列数据库 SNP: 单核苷酸多态性数据库 Taxonomy: 物种分类学数据库 Gene: 基因数据库。提供序列及基因描述信息 Structure: 大分子三维结构数据库 3D Domains: 特定功能域的三维结构数据库 UniGene: GenBank分离的非冗余基因簇。包含 已确定基因和EST。每个簇包含唯一的非冗余的 基因序列、表达的组织类型和基因图谱位点。
Entres-Gene数据库
序列来源于Refseq数据库; 详尽的注释信息,包括基因在基因组的定位, 基因名称、蛋白质名称,基因结构等; 基因的命名主要来自权威命名委员会的官方 符号以及Refseq记录中的基因名,由NCBI 工作人员进行数据收集并注释。NLM的索引 部门对基因功能进行阐述。 沿用人类孟德尔遗传网(OMIM)中的疾病 名称并与NCBI其他数据库形成交互链接。
PROSITE
收集了生物学有显著意义的蛋白质位点和 序列模式; 序列模式包括酶的催化位点、配体结合位 点、与金属离子结合的残基、二硫键的半 胱氨酸、与小分子或其它蛋白质结合的区 域等; 根据这些位点和模式快速和可靠地鉴别一 个未知功能的蛋白质序列应该属于哪一个 蛋白质家族;
PROSITE
http://www.expasy.ch/prosite/
UniSTS: 序列标签位点数据库,用于作图位点 PopSet: 人口研究数据库 Books: 在线生物医学图书数据库 OMIM: 在线人类孟德尔遗传目录数据库 Conserved Domains: 保守结构域数据库 Cancer Chromosomes: 癌症染色体数据库 Homologene: 基因同源物数据库 Journals: 杂志及出版社信息数据库 Genome: 基因组数据库,提供完成的基因组/染色 体图形 GDS: GEO的基因表达实验与生物芯片数值结果数 据库
3, 检索系统
NCBI:Entrez EBI:SRS ExPASy …
NCBI:Entrez
检索规则
逻辑运算符(大写): AND ,OR,NOT 运算过程由左至右,()部分优先 空格分隔默认逻辑关系为 AND 多个单词短语加双引号 模糊检索使用 * 用[ ]限定字段,如限定基因名称为ATG1的 检索 :ATG1[GENE]
蛋白质序列分类数据库- Pfam
Pfam:使用基于隐马尔可夫模型的多序列 比对方法对蛋白质序列进行家族分类。
分为Pfam-A与Pfam-B两个库 Pfam-A:包含经人工编辑,有完整注释的高质 量记录条目 Pfam-B:计算机工具自动编辑,除Pfam-A外 的条目,质量较低 /
5,序列数据信息检索实例
某天,Prof. Gene发现人的Hela细胞分裂迅速 (phenotype),通过实验的方法(例如,酵母双杂 交) 发现周期蛋白 H与这个蛋白有较强相互作用, 测序结果如下(genotype):
TGTACC ACCCTATTTG AAAC CTCC ATCCCTG CCCCTG CCCTGATTTG TTATCC TTTATCT G C T T TAT TAT C T C TATAG C AC T TAT C AC C TAT G TAT C ATA A C A C ATAT T T G AC T T G T T T T TTTATCTCCTCCC ATTGG AAG GCAGGG ATCTTTGCTCCCTGCTATCTC AG ATTCTAC AAT GGTGCTTGGCACATAGATAACACTCAATATCAGCATCCTAAGAGAGAGAAAAATGAAAAA G G AAAAG C AC TC AATAT G TTTTTG AATAAATG AAT TAG TG TG T TTG TTATG AC AAT TTAT G ATAATC AAGG GGTTGGGTACTC ATTACTGCTAAGTTAATTG AG CACTGTCTCAATTAAT TG AG TTAATG T CTAAG CTTT CTG C ATG TTTC AT TTAATAC C C AC AAT CTC CTG TG ATG TA GTTCATTATTTTTTCCATTTTACCG AGTAG AAAACTG AGG ACTAG AAGCTG ATTCCCAC A GCACGTTTCAGTTGAGTTGGATTTTGTTTTCCTGGGCCTGCTTCTTCATAAAGGGACTGG ACTAAG AATACTCTTGACCAGCCCGTAAG AACTTGGCACTCGTCTCAGTAATCTGAGATA GCAGGGTTTGGCGTCCATAGCAACCACGGCGACAGGACGCGCTCGAGCAAGAACCAAAAA GCGAGAACAGGTACAAGGCCAAACTTTCTACATTCACAGACACCTACCAAACCCCGAACA TGGAACACCAAATTAGAACGCTGACCAGTTCCTGGTAATGTAGAAAACACCCAAGTTAAA ACGGCAACAGAGTGACACAGCAGCCATTGAAGATGCCCCACTTCAGGCACCGACAGGCGT CACGTGACGGGTGGGGAACGCCAACCGCCTGGGCCTAGCGCAGCTTCCTCCGCCCACCAC GGAAGTGAGGCGGGGATACTAAAGCGACGGAGCCCGGTGGACGGAAGTGGGTGTTGGAGG CTTTAAGGTAGCTTTAAATTCGTGTTGTCCTGGGAGCTCG
/
转录调控区数据库 TRRD
在不断积累的真核生物基因调控区结构-功 能特性信息基础上构建; 每一个TRRD的条目里包含特定基因各种结 构-功能特性:转录因子结合位点、启动子、 增强子、静默子、以及基因表达调控模式等;
http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/
UniProtKB(UniProt Knowledgebase) UniRef(UniProt Reference Clusters) UniParc(Uniprot Archive)
2,序列家族分类及功能数据库
蛋白质序列分类数据库- Pfam 蛋白质序列功能位点数据库 PROSITE Gene Ontology (GO) 相互作用的蛋白质数据库 DIP 转录调控区数据库 TRRD …
BCNI: Blast
/
双序列比对结果
Score
Score:使用打分矩阵对匹配的片段进行 打分,这是对各对氨基酸残基(或碱基) 打分求和的结果,一般来说,匹配片段越 长、 相似性越高则Score值越大。 Identities: exact matches Positives: similarities based on the scoring matrix used.
Nucleotide database
including GenBank, RefSeq, TPA and PDB.
Genome, gene and transcript sequence data provide the foundation for biomedical research and discovery.
MNRCWALFLSLCCYLRLVSAEGDPIPEELYEMLSDHSIRSFDDLQR LLHGDPGEEDGAELDLNMTRSHSGGELESLARGRRSLGSLTIAEP AMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNR NVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETV AAARPVTRSPGGSQEQRAKTPQTRVTIRTVRVRRPPKGKHRKFK HTHDKTALKETLGA
/
4,双序列Blast比对实例
PDGF-related-transforming protein sis (Woolly monkey sarcoma virus) MTLTWQGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAEL DLNMTRSHSGGELESLARGKRSLGSLSVAEPAMIAECKTRTEVFEI SRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRP VQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQ EQRAKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA Platelet-derived growth factor subunit B (Homo sapiens)
E-Value
Expect value:在一个特定大小的数据库 中碰巧搜索到打分值约为Score的不同序列 的个数。 E值随Score增加,呈指数减少; 实质上,E指反映随机本底噪音;越接近零 ,表明该打分值的显著性越好。 相同序列相似性的比对,序列越长则EValue越小,反映偶然发生的概率越小。