当前位置:文档之家› 实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。

用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。

如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。

在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。

如果输入多个关键词,它们之间默认的是“与”(AND)的关系。

Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。

但“transcription factor”这样有一定范围的词是可以接受的。

可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。

 输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。

点击进入对应的数据库,可以查看搜索到的条目。

如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。

也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。

点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。

Figure 2.2 数据库选项下拉菜单但是这种简单搜索会产生大量的结果,其中很多信息都不是我们所需要的,NCBI为我们提供了“Limits”、“Advanced Search”等辅助功能,只有充分理解并熟练运用这些工具进行复杂的检索,才能充分发挥Entrez的强大功能,实现精确高效的检索。

A:limitsLimits限制性搜索可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如领域、编号、代码、提交日期等。

不同的数据库,其限定内容略有不同。

以Nucleotide数据库为例搜索hemoglobin,点击进入搜索结果页面后(Figure 2.3),在页面上方搜索栏下有“Limits”,“Advanced”选项。

Figure 2.3 search result点击Limits进入限定页面(Figure 2.4)。

可以对序列发布时间或修改时间进行限定,也可以对搜索关键词的领域(search field tags;如果输入的是序列名称,如hemoglobin, trypsin,选择title; 如果输入的是物种的名称,选择organism)进行限定,可以对搜索数据库(source database;一般选择RefSeq, 建议大家在平时搜索时也使用这个选项。

)进行限定,还可以对分子类型(molecule)、序列位置(gene location)和排除的数据类型(STSs, working draft, TPA, patent)等进行限定(Figure 2.4)。

Figure 2.4 Limits page限定完毕,点击“Search“,则出现根据限定条件得到的搜索结果(Figure 2.5),同时页面上显示“Limits Activated”。

如果要改变限定内容,可以点“change”修改,如果不需要限定,点击“remove”可取消限定。

Figure 2.5 Limits search result注意:查询序列时,我们常常将搜索限定在RefSeq数据库,因为它的数据是非冗余的。

The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for aspecies.B: Advanced若点击搜索栏下面的advanced,就会进入Entrez的高级搜索界面(Figure 2.6)。

Figure 2.6 advanced page“Builder”下方前部的下拉菜单提供了按字母顺序排列的检索领域(field)列表,允许用户直接选定特定的范围进行检索,选好field,在后面的文本框里输入关键词。

如果不确定关键词应该如何拼写,可以先写出自己确定的部分,然后点击“show index list”,则所有相关的类似关键词出现在下面的列表中,可以从中选择你需要的关键词。

(Figure 2.7)Figure 2.7 Show Index list例如:想要搜索人的血红蛋白序列,则可以首先选择搜索领域-title,在后面的文本框中输入关键词hemoglobin,此时这个关键词及其领域限定信息出现在上面的搜索框里。

然后再选择第二个搜索领域为organism, 在后面的文本框中输入关键词human,此时第二个关键词即其领域限定信息也出现在搜索框里,默认两个关键词是和(AND)关系。

点击search进行搜索,就得到数据库中所有人血红蛋白序列。

(此时要取消掉前面的Limits那步做的field 限定,只限定数据库为refseq即可)页面下方有History区域,这里保留了最近的搜索记录,点击搜索结果前面的标号(#数字)时,下拉菜单内容依次是布尔逻辑运算符和、或、非、删除本条记录、显示搜索结果、显示具体搜索条件、保存到我的NCBI帐户(需注册)(Figure 2.8)。

一方面方便我们查阅,更重要的是可以使用布尔逻辑运算符对搜索结果进行运算处理,如#25 AND #26。

Figure 2.8 Search HistoryC:其它搜索技巧1.利用作者姓名检索可按以下格式:姓加名的第一个字母(johnson d)但不能在其中使用任何标点,后面加[AU],表示在author field进行搜索2.在关键词后面加“*”以检索所有以给定字符串为首的词组内容。

3.范围检索。

序列登录号[ACCN],序列长度[SLEN],分子量[MOLWT]和日期[MDAT]和[PDAT]。

范围运算符是冒号“:”。

如3000:4000[SLEN]将检出序列长度介于3000~4000之间的所有记录。

D.保存搜索结果保存序列,切记用文本文档,不可复制粘贴到word文档,因为会引入特殊字符,用程序分析时会出错。

可从NCBI网站直接保存序列,在搜索结果页面,点击序列条目前面的复选框选中要保存的序列,然后点击页面右上方的send 下拉菜单下载序列信息,可同时下载多条序列;也可以进入某条序列页面后,点击页面右上方的send下拉菜单保存这条序列,这里以序列页面为例说明如何保存。

确定了所要查找的序列,点击打开序列页面后,默认显示为genbank格式,如果想要以其它序列格式浏览,可以点击页面左上方的“display settings”,从下拉菜单中选择需要的格式,点击”apply” 页面会转换到所需要的格式(Figure 2.10)。

Figure 2.9 display settings 改变序列格式点击页面右上方的“send”下拉菜单,有四个选项,file(保存到文件)、clipboard(保存到临时剪贴板),collections(NCBI账户,需注册)和analysis tool(NCBI的在线分析工具)。

如果选择File,下面会出现format下拉菜单,选择要保存的序列格式,请将同一条序列genbank格式和fasta格式各保存一个文件,点击“create file”,会自动弹出一个下载窗口,点击保存,此文件可以用写字板或记事本打开。

Figure 2.10 序列保存如果选择clipboard,下面会出现按钮add to clipboard,点击此按钮保存到NCBI提供的临时剪贴板(自动为此IP保存8小时,8小时后过期清除),此时在页面左上方显示1 item was added to the Clipboard,右上方显示clipboard:1 item。

(Figure 2.12)Figure 2.11序列发送到剪贴板成功点击右边这个clipboard,因为此时剪贴板中只有一条序列,会直接到达这条序列页面。

如果剪贴板中已经存入多条序列,则进入序列列表。

(Figure 2.13)此时可以选择从剪贴板中移除某条序列(序列下方红色字符:remove from clipboard),或移除全部序列(最上方蓝色字符:remove all items)。

Figure 2.12 Clipboard页面如果在send下拉菜单打开后,选择collections,下面出现按钮Add to collections,点击此按钮,页面跳转,要求登录NCBI账户。

要使用这个选项,必须注册为NCBI用户,注册成功后,可以将你需要的序列或某次搜索结果保存到你的NCBI账户里,这样即使用不同电脑登录,信息也不会丢失。

二、BLAST搜索在生物学研究中,对于新测定的碱基序列或氨基酸序列,人们往往试图通过数据库搜索找出于其相似的序列,以推测该未知序列是否与已知序列同源或可能属于哪个基因家族,以及具有哪些生物功能。

数据库搜索是双序列局部比对的特例。

NCBI开发的BLAST(basic local alignment search tool)是目前最常用的的数据库相似序列搜索程序,它的优势在于比对速度非常快,通过将查询序列(query)与数据库中每一条序列两两比对,寻找到相似序列。

相关主题