UniProt数据库
一、UniProt数据库简介
蛋白质组常用数据库——UniProt数据库,是信息最丰富、资源最广的蛋白质数据库。
它由Swiss-Prot、TrEMBL 和PIR-PSD三大数据库的数据整合而成,数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,并包含了大量来自文献的蛋白质生物功能的信息。
一般蛋白质组搜库首选数据库也是UniProt,所以对于通过UniProt库搜库的组学数据,可以在此网站中进行蛋白功能查询。
UniProt数据库可以提供的信息包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。
蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。
UniProt 数据库由UniProt 知识库(UniProtKB )、UniProt 档案(UniParc )、UniProt 参考资料库(UniRef)以及UniProt元基因组学与环境微生物序列数据库(UniMES)构成。
UniProtKB全称 UniProt Knowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。
Swiss-Prot 数据库特点高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。
有质量保证的数据才被加入该数据库!TrEMBL数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。
它能注释所有可用的蛋白序列。
在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。
它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。
UniParc全称是UniProt Archive(UniProt 档案),他是一个综合性的非冗余数据库,它包含了所有主要的、公开的数据库的蛋白质序列。
由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次!无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。
该数据库只含有蛋白质的序列信息,而没有注释数据。
UniRef(UniProt 参考资料库)可以通过序列同一性对最相近的序列进行归并,加快搜索速度。
UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能完整的、没有遗漏的
收录所有数据,同时也保证没有冗余数据,该数据库的同一性(identity)分为三个级别:包括UniRef100, UniRef90和UniRef50,分别包括了相似度为100%,90%和50%的序列的总和。
UniMES是metagenomics和环境生物学的序列数据库,其中的数据可能是未知的,UniMES提供UniRef类似的聚类功能。
二、UniProt数据库信息检索
如何检索:文字检索和序列相似性(BLAST)检索。
1.首先在地址栏中输入网址https:///,跳转后页面显示如下:
2.在UniProtKB栏输入蛋白ID或Accession Number以查询蛋白功能。
例如,当我们将TP53输入功能栏后回车,界面将跳转如下,可以通过左侧的条件(物种来源、主题、数据库等)进行数据筛选过来。
通过点击“Columns”,对搜索的信息进行筛选排序,结果如下:
3.检索结果:数据库可以提供的信息包括蛋白质名、基因名、蛋白功能描述、GO注释信息、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。
蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。
4.UniProt数据库同样具有相对应的批量处理方法,可以同时搜索多个蛋白信息,对其功能进行快速浏览、筛选。
首先,打开网站后,点击“Retrieve/ID mapping”,在编辑栏中输入或上传标识符列表,点击search按钮。
编辑栏中也可以将不同类型的标识符转换为UniProt标识符,反之亦然,并下载标识符列表。
5.界面跳转后,将会显示蛋白对应的基因名、蛋白描述、序列长度等信息,可以使得蛋白功能信息批量呈现。
选中所有的蛋白,可以Download到本地,数据库提供了多种数据格式选择下载。