PCR引物设计流程(以扩增鹅PHIP基因编码区序列为例)一.流程图二.确定模板1.确定模板来源物种近亲物种:原鸡,绿头野鸭,鸽,雀,鹦鹉,蜂鸟等常用物种:灵长类(人,大猩猩,恒河猴),哺乳类(大鼠,小家鼠,猪,牛,羊,狗),爬行类(鳄,龟),两栖类(蛙,蟾蜍),鱼类(斑马鱼,亚马逊帆鱼)一般在每一类常用物种中选择一个物种,在近亲物种中选择2种以上作为模板。
如,扩增鹅PHIP基因选择以下物种序列为引物设计模板:鸡,鸭,人,小鼠,蟾蜍,斑马鱼。
2.利用NCBI得到各物种需扩增基因的模板序列A.进入NCBI主页/,选定搜索范围为“Gene”,关键词为“PHIP”,得到如下图搜索结果(也可在关键词中包含物种名,如“PHIP Anser”,物种的英文名和拉丁学名在搜索时都可使用)。
B.点击所需物种的PHIP基因,进入该基因的报告页面(以人PHIP基因为例)。
基因报告页面中部Refseq条目中显示该基因在NCBI中的参考序列,该条目下可得到mRNA序列。
如下图。
另,关于RefSeq条目的相关名词解释参考/refseq/about/。
C.需注意:对于同一基因的mRNA可能具有不同长度的剪切异构体,选择模板时不同物种应尽量选择同一异构体(一般选择最长的异构体)。
D.如需得到该基因所在基因组的序列信息(如扩增启动子区域时),在基因报告页面上部Genomic regions,transcripts,and products 条目下,点击Go to nucleotide选项下FASTA按钮可进入基因组(组装)序列页面。
E.在基因组(组装)序列页面中,默认仅显示跳转前基因的序列,在Change region show 条目中修改设置为Whole sequence得到基因组序列,在Send选项下保存即可。
3.整理下载的模板序列三.寻找保守区域保守区域的意义:基因的保守区域是指不同来源的同一个基因在某些区域没有差别或者差别很小。
在扩增基因序列时,选择在保守区域设计引物能够更有效的扩增未知的基因。
因此,在引物设计前需先找出目的序列中的保守区域。
在引物设计时,则首先应在保守区域内设计引物。
1.制作mega标准序列A.用ClustalX软件打开整理好的TXT文件(菜单File →Load Sequences),然后在菜单Alignment选项下选择Do Complement Alignment,此时将保存两种格式文件:.dnd和.aln(序列较长时耗时较长,需数分钟)。
B.将以上.aln文件用DAMBE软件打开(File→Open standard sequence file),注意选择恰当的序列类型。
打开后的文件可直接转存为.meg或.fas格式文件(File→Save or Convert Sequence Format)。
注1:此时在Sequence Info对话框应选择Binary选项,否则在转换格式时T碱基会被替换为U。
2.Mega分析同源性A.用Mega软件打开以上保存的.meg或.fas格式文件,新建一个序列对齐分析窗口(Align→Edit/BuildAlignment→Retrieve sequences from a file)。
B.在新窗口中以默认设置将序列集进行序列对齐分析(Alignment→Align by muscle(Codons)),结果保存为.fas文件(Data →Export Alignment)。
C.打开网址http://mobyle.pasteur.fr/cgi-bin/portal.py#forms::boxshade进入在线软件BOXShade,在选择文件按钮下载入以上已对齐的模板.fas文件。
点击advanced options按钮展开选项,将默认设置进行如下图修改。
其余选项保持默认即可,也可根据实际需要进行调整。
设置完后点击Run提交任务。
注2:should sequence name be printed项的默认设置为YES,此时将把序列名同时打印。
需再输出的富文本文件中将字体全部改为中文字体,才能保持序列的对齐。
如需英文字体,此项可以改为no,序列名可以通过其他方式添加。
在软件输出结果的报告页面中保存.rtf格式的富文本文件,该文件可用Microsoft Word编辑。
3.保守区域的分析如下图,consenus行表示序列间的一致性,*号表示在序列间完全一致的碱基,.号表示在序列间高度相似的碱基,空格表示在序列间;consenus行之上每一行分别代表一个物种的PHIP基因序列,蓝色背景的碱基为在物种间保守的碱基。
首先观察consenus行,*号比例在50%以上且空格很少的区域可视作保守区域,具体分析中应灵活处理。
以PHIP基因为例,保守区域可划分为:190-1240bp,1260-1980bp,2000-2290bp,2540-4920bp,5340-5740bp。
注3:出现连续的长的不保守区域(大于数百bp),因为引物设计产物的最佳长度上限在1000左右。
此时可以只考虑近亲物种序列的保守性,降低保守区域的分析标准。
4.绘制引物设计示意图注4:对于PHIP基因,我们顺利的得到了保守性区域分析结果。
但是,对于某些进化较快的基因,保守性区域可能不足够用于设计引物。
此时,可以逐渐减少用于分析的远缘物种,采用渐进性的分析,直到得到能够设计引物的保守性区域。
注5:为什么是mega ?保守性区域的分析用其他软件(如DNAMAN)也可进行。
采用mega的原因在于其分析方法的可靠性更高,同时该软件在进化分析等中也非常常用,所以将mega可读序列的制作一并说明。
四.用Primer5 软件设计引物1.新建文件,导入模板确定一条序列为设计引物的模板序列。
本例中根据进化关系,选择鸭的PHIP基因序列为模板。
在Primer5软件中新建一个窗口(File → New → DNA Sequnce),将模板序列粘贴(ctrl+v)在窗口内(一般选择as is表示粘贴原序列,也可根据需要粘贴反向序列等)。
2.设置参数,搜索引物在新序列窗口中点击按钮进入引物设计窗口,如下图。
在引物设计窗口中点击按钮进入引物搜索窗口,如下图。
引物类型为PCR Primers ,搜索类型一般选择成对引物,在搜索范围内限制搜索上下游引物的序列区域(参考前面的保守区域进行设置),产物长度,引物长度设置详见后续介绍。
搜索模式分为自动的Automatic和手动的Manual,在自动模式下引物搜索由严格标准往宽松标准执行,直至引物条数/对数达到设定值,其搜索参数设置如下图,搜索参数为在搜索过程中排除不合格引物的筛选条目;在手动模式下,可设置搜索的严格程度,并可修改搜索参数条目下的限定数值。
在引物搜索窗口设置好后点击按钮开始搜索,搜索结果如下图。
在搜索结果中可分别查看上下游引物或成对引物的情况。
Rating值代表系统对引物的(产物)打分,分值越高说明引物越优秀,但并不是绝对的评价标准。
引物具体信息在点击引物所在行后在引物设计窗口显示,其中:按钮为选择显示上游或下游引物信息;Seq No表示引物第一个碱基在序列中的位置;Length表示引物/产物长度;Tm表示引物/产物的熔解温度;GC%表示引物/产物的GC含量;△G表示引物结合模板过程的自由能;Activity表示引物与结合的效率;Degeneracy表示引物的多义性;T a O p t表示P r i m e r5软件建议的成对引物扩增时的最佳退火温度。
Hairpin表示引物可能形成的二级结构;Dimer表示引物自身可能形成的二聚体;False Priming引物与模板的错频;Cross Dime引物间可能形成的二聚体表示。
以上项目即为分析引物时的参考条目,引物设计的一些原则整理见后续。
参照引物设计的原则即可根据Primer5中上述参数对引物对进行选择。
另,对于一些引物,可能出现大多数指标都较为优秀,但个别指标严重影响扩增反应的情况。
这种引物可使用按钮,手动的对其进行修改以提高其性能。
3.引物设计原则1)引物长度:一般为15-30bp,常用的是18-27bp,但不能大于38,因为过长会导致其延伸温度大于75℃,即Taq酶的最适温度。
总的说来,每增加一个核苷酸引物特异性提高4倍,这样,大多数应用的最短引物长度为18个核苷酸。
引物长度的上限并不很重要,主要与反应效率有关。
由于熵的原因,引物越长,它退火结合到靶DNA上形成供DNA聚合酶结合的稳定双链模板的速率越小。
2)产物长度:扩增片段长度取决于酶的活性和保真性能。
对于普通Taq聚合酶,PCR产物一般不超过2000bp,而在100-1000bp范围效果较佳,超过1000bp的产物就可能出现产物量降低甚至无法扩增的情况。
对于其他酶,应根据相关说明使用。
3)引物Tm值:引物的Tm值,指的是50%的引物分子和其互补序列表现为双链时的温度,PCR时的退火温度一般都要比Tm值低5℃左右以确保有效退火。
引物的Tm值一般控制在55-65度, 一般需保证上下游引物的Tm值差不超过4-6度。
如果引物中的G+C含量相对偏低,则可以使引物长度稍长,而保证一定的退火温度。
许多软件可以对Tm进行计算,其计算原理各有不同,因此有时计算出的数值可能会有少量差距。
4)GC%:有效引物中(G+C)的比例为40-60%,GC含量太低导致引物Tm值较低,使用较低的退火温度不利于提高PCR的特异性,GC含量太高也易于引发非特异扩增。
上下游引物的GC含量不能相差太大。
GC%对扩增的影响主要通过Tm值来体现,当Tm值符合要求时,对于GC%不必做严格要求。
另,引物序列中同一碱基连续出现不应超过5个。
5)引物3’端:引物3’端是延伸开始的地方,最好不存在错配。
同时3’端不应超过3个连续的G或C,因这样会使引物在G+C富集序列区错误引发。
同时,3’端有形成二级结构/二聚体的可能对于PCR扩增的影响将大于5’端。
在扩增编码区域时,引物3′端最好不要终止于密码子的第3位,因密码子的第3位易发生简并,会影响扩增特异性与效率。
6)△G值:引物5′端和中间△G值应该相对较高,而3′端△G值较低。
△G值是指DNA双链形成所需的自由能,它反映了双链结构内部碱基对的相对稳定性,△G值越大,则双链越稳定。
应当选用5′端和中间△G值相对较高,而3′端△G值较低的引物,即3’端尽可能选用A或T,少用G或C。
引物3′端的△G值过高,容易在错配位点形成双链结构并引发DNA聚合反应(寡核苷酸3′末端最后5个核苷酸的稳定性小于-9 kcal/mol,通常就是专一性的探针或引物)。
7)引物的二级结构/二聚体:引物自身不应存在互补序列,否则引物自身会折叠成发夹状结构,这种二级结构会因空间位阻而影响引物与模板的复性结合。