生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm /Embnetut/Gcg/index.htm一、数据库1.核苷酸数据库GenBank 、EMBL 、DDBJ (在使用方法和连接的数据库上有差异,但数据量相同。
) 注:氨基酸序列是非试验来源,为推倒的结果。
使用时要谨慎!!!!)(1)GenBank(NCBI)数据解释。
/注:Display 中选FASTA 形式,显示原始的核苷酸数据,便于复制。
每条序列的3种编号(identifier)无意义)定义(描述) 版本 X.Y 1.位点名(基本2.注册号 3.Geninforidentifier(GI 号) 6位(X12345)或8位数字(XY123456);例外:自编号(一般为基因组序列)物种类型一般与Accession NO.相同(今6位型:属+种+X12345 8位型:与AC 相同10位数:早期8位数:现注:NID(Nucleotide ID) 1999.12取消,改用序列的数据可以更改,GI 号、NID 号变化,但AC 号不变。
GI 号。
Coding sequence 谨慎使用!!!! 最后一条Reference 序列提交者的文章为。
可以知道这一基因的研究历史,便于研究。
(2)dbESTEST来源于mRNA-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。
/dbEST/index.html(3)UniGene来源于同一基因的非重复EST,组成基因序列群(contig)注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig)/UniGene/(4)dbSTS (sequence tagged sites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用/dbSTS/index.html(5)dbGSS (genome survey sequence)a.基因组短序列b. cosmid、BAC、YAC外源插入片断末端序列c. Alu PCR 序列/dbGSS/index.html(6)HTG (high-throughput genome sequence)尚未完成测序的重叠群(>2kb)更新快!!!/HTGS/(7)dbSNP每100-300bp有一个SNP/SNP/(8)EMBL/embl/(9)DDBJhttp://www.ddbj.nig.ac.jp/(10)EPD (Eukaryotic Promoter Database)启动子数据库http://www.genome.jp/dbget/dbget2.html2.蛋白质数据库(1)SWISS-PROT/sprot/有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL (translation of EMBL)(3)PIR (Promoter information resource)/pir/表明了结构域(4)PRF (Promoter research foundation)http://www4.prf.or.jp/(5)PDBSTR (Re-organized Protein data Bank)/sprot/prosite.html蛋白质的二级结构、α-碳位置(6)Prosite蛋白质家族、结构域/prosite/3.结构数据库(1)PDB (Protein Data Bank)/pdb/(2) NDB (Nucleic Acid Database)/NDB/ndb.html(3)DNA-bind Protein database/NDB/structure-finder/protein/index.html(4)swiss-3D IMAGEhttp://www.expasy.ch/sw3d/4.酶和代谢数据库(1)KEGG (Kyoto Eneyclopedin of genes & genemes)http://www.genome.ad.jp/kegg/(2)PKR (Protein Kinase Resource)/kinases5.文献数据库(1)PubMed/PubMed/(2)OMIM/Omim(3)Agricola/农业相关的文献6.提交数据GenBankBankIt提交 网上直接提交,立即得到临时编号(1周内提供Aceesion No.)SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching关键词:名词;描述性词、词组;Accession number体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET) 检索须知1、连接词:AND OR NOT用引号将两个词组成一个词组“disease resistance”表示必须两个词先后顺序连续出现disease resistance 表示默认AND2、wild card “*”放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同(1)Entrz(NCBI)优点:三种检索体系中最容易操作的; 缺点:检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotide sequence database(6)GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD4、Taxonomy database(1)Taxonomy5、Genome database(2)Genomes; Genome Project6、Expression database(4)UniGene; GEO Profiles; GEO database;GENSAT注:数据库来源于mRNA-cDNA-protein(更确切)7、Literature database(7)PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH8、OthersPubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)(2)SRS (Sequence Retrieval System)/ 有不同的版本,可以下载。
EBI 优点:检索面宽缺点:检索复杂17大类194个数据库与SRS体系相连检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。
)b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。
)(3)DBGEThttp://www.genome.jp/dbget/dbget2.html优点:与KEGG相连,操作较SRS简单缺点:检索面较窄检索方法:a、Basic search b、Advanced search三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching1、序列对位排列(sequence alignment)2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺失、序列延长、序列定位、基因表达谱分析)3、序列对位排列分析种类a、序列对库对位排列分析(从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库)b、两序(多序列)列对位排列分析(一)序列对位排列分析的基本原理1、记分矩阵(scoring matrix)a、蛋白质序列对位排列分析记分复杂b、一致氨基酸记分不同稀有氨基酸分值高,普通氨基酸分值低c、相似氨基酸也积分,如D-E 用“+”表示氨基酸残基性质相似2、空位(间隔)罚分(gap penalty)基因进化过程中产生突变(插入、缺失)序列对位排列分析是允许插入空位空位罚分涉及两个参数:空位开放(gap opening)空位延伸(gap extension)(二)序列对库对位排列分析对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列主要检索体系:BLAST、FASTA、Blitz1、基本概念a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同sequence similarity(or opositive)两序列在同一位点核苷酸或氨基酸残基化学性质相似b、Global alignment 完整的序列比较Local alignment 两序列相似程度最高的片断相比较c、Gapped alignment 为达到最佳alignment序列中加入空位Ungapped alignment 相比较的核苷酸或氨基酸残基连续d、Alignment score 衡量两相比序列相似程度的标准E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数Raw score 原始分,分值较大,两个比较序列相似性程度较大Bit score 采用统计学方法以原始分为基础计算E=10 ;表示方法5e-46=5×10-46E越小越好可以接受的标准:E=10-5(重叠位置>40bp;identity>94%;远大于杂交标准)E=10-30基因组分析,功能与序列中相似E取决于alignment分值,相比较序列的长短和库中数据数量e、Low-complexity alignment region(LCR)核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA)数据库中半数以上的序列至少带有一处LCR序列alignment 应避免LCR相互配对得分BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸2、BLAST(Basic Local Alignment Search Tool)(1)Nucleiotide Blast (Blastn)(2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast)(3) Translated blast (blastx;tblstn;tblsatx)(4) Special Blast (Blast 2 sequence;bl2seq;VecScreen)BLAST programBlastn 用核苷酸序列检索核苷酸库BlastP 用氨基酸序列检索蛋白质库Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库tblastx 将核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索核苷酸库(库中的序列也被译成不同的氨基酸序列)Blast databasenr (nucleiotide blast) GenBank(无EST、STS、GSS、HTGS)nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF(1)BLASTN序列的粘贴(或用GI号)-选择database-Autoformat(full/semi)(2)BLASTP(3)PSI-blast (Position Specific Iterated Blast)氨基酸序列检索;重复循环检索数据库。