实验三数据库搜索—BLAST
1. Nucleotide BLAST
在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具
Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073
截取30bp的片段进行blastn搜索,默认参数设置如下图:
搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,
提高敏感度,而将 E-value 调大,确保有搜索结果出现。
2. Protein BLAST
2.1第一个例子:
以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库,database选择RefSeq-protein数据库,organism选择细菌(Bacteria (taxid:2)),Blastp得到549条相似序列。
分别用 BLASTP, PSI-BLAST,
Methods Number Identity(%)Max score
blastp54922-3935.7-54.1
PSI-BLAST
PHI-BLAST
DELTA-BLAST
2.2第二个例子
a 以人的血红蛋白 beta 链(NP_000509)作为 query, 使用默认参数搜索数据库(nr)搜索,共得到1443条序列,max score分值范围50.4-301,identity 范围41-100%。
b数据库更换为 RefSeq-Protein,organism设置为plants (taxid:3193),搜索结果为No significant similarity found. For reasons why,click here,表明没有搜索到同源序列。
c 仅将wor
d size调为从6调为2,提高搜索敏感度,搜索到分值在32.3-37.4的56条序列,idetity范围31-38%。
仅将评分矩阵从默认的 BLOSUM62 换成BLOSUM45,搜索到分值在31.8-33.9的9条序列,idetity范围23-37%。
从两个参数调整的搜索结果看,word size更好的提高了搜索敏感度。
d若是使用PSI-BLAST,第一轮搜索到51条序列,选择 leghemoglobin构建矩阵,进行第二轮搜索,第二轮搜索到260条序列,且max score明显升高,范围47.4-149,第三轮266条,经7轮搜索,共得到268条序列,分值范,45.5-275,
identity范围13-22%。
使用敏感度更高的搜索算法DELTA-BLAST,第一轮得到265条序列,去掉非同源序列,进行第二轮搜索,得到267条,第三轮就得到268条,分值范围44-275,identity范围12-22%。
从四种提高搜索敏感度的方法所得到的结果可以看出,DELTA-BLAST和PSI-BLAST敏感度较高,都搜索到268条序列,而DELTA-BLAST在第一轮搜到几乎所有的同源序列,PSI-BLAST经过6轮迭代搜索,才得到所有序列。
减小word size和更换小的BLOSUM矩阵,分别搜索到56和9条序列,与迭代搜索敏感度相差甚远。
2.3分别以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,搜索核酸和蛋白数据库,数据库分别限定为refseq-rna和refseq-protein,organism分别限定为Bacillus sp. 10405 (taxid:1423)和Bacillus sp. 2479 (taxid:1396)。
以MAPK9(NM_139069.2)为query,搜索到303条序列,主要是分布在Bacillus cereus中。
而以其编码的蛋白序列(NP_620708.1)为query,搜索到313条序列,主要是分布在Bacillus cereus中,蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。
通过调整搜索参数,可以提高搜索的敏感性,当单词单位调为2时,可以搜索到319条序列,也是分布在Bacillus,Bacillus cereus中。
当矩阵从默认的BLOSUM62 换成 BLOSUM45,相似序列也是分布在Bacillus,Bacillus cereus 中,但是搜索到序列条数有所下降,仅313条。
使用敏感性更高的方法,PSI-BLAST经过7轮迭代搜索不再出现新序列,共得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group 中,DELTA-BLAST经4轮迭代搜索得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group中。
PSI-BLAST搜索,第一轮会出现假阳性,经过筛选,以后每轮的假阳性会越来越少。
而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。
2.4 在进行搜索时,发现QuickBLASTP速度确实比blastp 搜索速度快,用QuickBLASTP搜索nr 蛋白质数据库的MAPK9(NP_620708.1)在芽孢杆菌中的相似序列时,结果没有搜索到序列,而blastp搜索到413条序列。
说明blastp 搜索到搜索到的序列与目标序列的相似性均在50%以下。
3. Translated BLAST
以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,分别用blastn,blastp,blastx, tblastx和 tblastn 搜索核酸和蛋白数据库,
数据库分别限定为refseq-rna和refseq-protein,organism限定为Bacillus。