实验1:三大生物信息中心浏览、DOTPLOT一、实验目的:1. 了解三大生物信息中心的资源;2. 学习分析DOT PLOTS比对结果。
二、实验内容:(一)、三大生物信息中心浏览1. NCBI2. EBL3. DDBJ(二)、DOTPLOT1. 了解demo sequence 了解软件使用方法;2. 通过序列自身比对,寻找其重复和反向重复区域。
三、作业:1. Introduce the following NCBI databases in your own words:MMDB, CDD, dbGap, PMC., OMIM, UniGene, PubChem, RefSeq.MMDB——分子模型数据库(Molecular model database)一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。
MMDB 是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。
MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。
数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。
利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。
MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或Kinemage来显示。
另外,数据库中类似的结构已经被用V AST确认,新的结构可以用V ASTsearch来同数据库进行比较。
(/Structure/MMDB/mmdb.shtml)CDD——蛋白质保留区序列数据库(Conserved Domain Database)提供在分子演化过程中蛋白质保留区数据。
资料来源为Smart资料库、Pfam数据库、研究人员提供的数据与MMDB数据库中已知3-D蛋白质结构的区域比对数据。
藉由使用CD-Search工具,CDD可被用来鉴定蛋白质输入序列保留区;此外,CDART工具亦使用CDRPS-BLAST检索具相似区域结构的蛋白质。
(/Structure/cdd/cdd.shtml)dbGaP——基因型和表型数据库(The database of Genotypes and Phenotypes )此数据库开发的归档和分发的调查研究基因型和表型的相互作用的结果。
这些研究包括全基因组关联研究,医疗测序,分子诊断方法,以及基因型和非临床特征之间的关联。
(/gap)PMC——公共医学中心(PubMed Central)PMC是生命科学期刊文献的数字化文献馆,由美国国家医学图书馆(NLM)的国家生物技术信息中心(NCBI)开发和设计。
PMC旨在扮演数字化时代世界级图书馆的角色。
进入PMC是免费且不受限制的。
PMC(包括Medline)是一个数据库精品,它可帮助研究者和临床医生们找到相关的文章,在多种情况下,还可直接链到全文出版者。
(/pmc/)OMIM——在线人类孟德尔遗传(Online Mendelian Inheritance in Man)孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。
该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
经常更新人类基因和遗传失调的目录。
OMIM的使用:根据输入到检索窗口的一个或几个词执行简单的查询;返回含有该词的文档的列表;选择一个或更多的异常查看其OMIM记录的全文。
(/omim/)UniGene——面向基因聚类数据库UniGene将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。
每个UniGene 群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱;除了基因的序列之外,还包括大量的EST序列。
序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
( /UniGene/)PubChem——有机小分子生物活性数据PubChem是一种化学模组的数据库,目前由美国国家生物技术信息中心维护。
PubChem可经由网站直接存取,数以百万计的化学组成资料集可经由FTP免费下载。
PubChem收录的1200种生物检测方法中的至少一种生物检测试验中具有活性。
PubChem不仅与PubMed、PMC等Entrez数据库有链接,还与Entrez Structure和Entrez Protein有链接,这样就将基因组水平的生物大分子与细胞代谢水平的小分子联系起来了。
用户可以使用文本在PubChem数据库中进行搜索,也可以使用各种格式的化学分子式或化学结构进行搜索。
(/)RefSeq——NCBI数据库的参考序列(referenced sequence )RefSeq校正的、非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。
Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。
RefSeq标准为人类基因组的功能注解提供一个基础。
它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。
2. Make a list of the molecular biology related books on the NCBI bookshelf, specifying the book title, authors and publishing press.Bookshelf ID Title Authors Publishing pressNBK1116PMID: 20301295 GeneReviewsRoberta APagon,Editor-in-chief,Thomas DBird,et alSeattle (WA): University ofWashington, SeattleNBK63560PMID: 21977519Diagnosis andTreatment ofObstructive SleepApnea in AdultsEthan M Balk,DenishMoorthy,et alRockville (MD): Agency forHealthcare Research andQuality (US)NBK62335PMID: 21977550 Drug Class Review:Long-Acting OpioidAnalgesicsUsanCarson,SujataThakurta,et alPortland (OR): Oregon Health& Science UniversityNBK62507PMID: 21977543The Causes andImpacts of NeglectedTropical and ZoonoticDiseasesMei Chung,Raveendhara RBannuru,et alWashington (DC): NationalAcademies Press (US)NBK61823PMID: 21977547 Drug Class Review:Neuropathic PainShelley Selph,SusanCarson,et alPortland (OR): Oregon Health& Science University3. Introduce the following EBI databases in your own words: chEBI, ENA, UniProt, ArrayExpress,Ensemble, PDBe.chEBI——生物医学相关化学条目的数据库(Chemical Entities of Biological Interest)chEBI是一个收录生物医学相关化学条目的数据库,它是开放式生物医学本体的一部分,提供HTTP和匿名FTP服务。
(/chebi/)ENA——欧洲核苷酸档案ENA捕捉和呈现周围核苷酸序列为基础的实验工作流程的有关信息。
典型的工作流程,包括物质的分离和测序,其中测序数据的生产和后续的生物信息学分析管道测序机的运行准备。
ENA此信息记录在一个数据模型,涵盖输入信息(样品,实验装置,机器配置),输出机的数据(序列的痕迹,读取和质量分数)和解释信息(大会,测绘,功能注释)。
ENA是一个不同的数据库,其中包括EMBL银行,新成立的序列读取存档(SRA)和每个与他们自己的数据格式和标准的跟踪档案。
(/ena/)UniProt——Universal ProteinUniProt是信息最丰富、资源最广的蛋白质数据库。
它由整合Swiss-Prot、TrEMBL 和PIR-PSD 三大数据库的数据而成。
其数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。
它包含了大量来自文献的蛋白质的生物功能的信息。
要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和UniProtKB/TrEMBL (包含未校验的、自动注释的条目),在2010年8月是10日发布的版本中, UniProtKB/Swiss-Prot 包含519,348 条注释条目,UniProtKB/TrEMBL 包含11,636,205 条注释。
数据库的特点:高质量;与其他数据库联系紧密;更新速度快;使用快捷方便;分析工具齐全。
(/uniprot/)ArrayExpress——微矩阵数据库ArrayExpress是一个新的微阵列基因表达数据的公共数据库,在EBI,这是一种通用的基因表达数据库设计所有芯片平台的数据。
ArrayExpress数据库网由欧洲生物信息研究所创建。
ArrayExpress是一个公共的微矩阵数据库,用以存储充分标注的并且与MGED(微矩阵基因表达数据协会)格式一致的数据。
用户可以在该网站浏览、查询并且提交微矩阵数据。
(/arrayexpress/)EnsembleEnsemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。
本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来,便于查询。
Ensemble 可从药品专利开始,再通过其临床前和临床研究资料,直至注册信息、市场概况及其他方面的相关资料来跟踪药物。