活性中心序列谱及系统发育树的制作
杨曼丽
1 序列谱的制作
1.1 搜集数据
查找数据。
在CAZy数据库()中找到目标家族。
All显示的是该家族所有的序列条目,Structure显示的是结构已经被实验解析的条目,Characterized显示的是有功能标注的条目。
数据显示按Archaea、Bacteria和Eukaryota分类。
排列按字母顺序。
数据库中分别显示蛋白的名称、EC号、来源、GeneBank、Uniprot及PDB数据。
图1
下载PDB文件。
将目标PDB文件下载。
在同种蛋白含有不同PDB文件的时候注意文件的选取。
可以通过上传时间、发表文献等找出最原始的结构,其他相关结构一般为该原始结构的突变结构。
下载Uniprot序列。
将目标Uniprot文件下载,保存为Fasta格式。
一般文件命名原则为:物种_EC号_Uniprot 号_PDB号(如果有的话)。
物种用A、B、E标注。
没有Uniprot号的用GenBank号代替。
为了方便后续的建树,可以先将每个序列文件抬头(一般为第一行”>”标识)名称改为文件所命之名,这样可以省去在建树后改leaf名称的麻烦
1.2 活性中心架构的获取
底物的选取。
用Pymol打开下载好的PDB文件,用present->ligands找出底物。
也可显示全序列,查找序列末端。
注意一般底物为BGC等糖环,而非ACT等小分子。
有的底物在结构解析时有丢失,因此需要详细研究整个家族的PDB,以便将一些底物进行拼接。
图2
切点和方向的确定。
找好底物后将整条糖链横向放置,找出非还原端和还原端(一般非还原端在左,还原端在右)。
查找原始文献,找到切点位置,记录为0点。
0点往非还原端方向的糖环分别为-1、-2、-3、-4……,往还原端方向的糖环分别为+1、+2、+3、+4……。
活性中心氨基酸的筛选。
从一个糖环开始选取其邻近氨基酸。
以5埃为例。
选择第一个糖环的氧原子(如O6),Pymol的log会显示该原子的序号(如6006)。
在CUI中输入命令:select near O6, resi 6006 around 5 。
将选取出来的氨基酸保存后进行下一个原子周围的选取。
统计。
用EXCEL对数据进行统计。
一般首列为PDB号,首行为相对位置。
比如一个氨基酸离-4位糖环的O4比较近,则命名此列为-4 O4。
氨基酸的命名方法是位置号码+氨基酸名,如111A指的是111位的丙氨酸。
将不同PDB的底物和相关氨基酸进行拼凑,至少保证每个位点上有一个氨基酸。
结构比对。
打开VMD,Extension->Analysis->Multiseq. 输入PDB文件。
选择Tools->Stamp Structural Alignment进行结构比对。
比对完后找到目标氨基酸,将其同一位点所有结果都记录在EXCEL中。
注意,空位点用“-”表示。
图3
注意:VMD使用的一些问题。
①文件名不要超过8个字符否则会报错。
因此之前为了建树方便的命名需要进行删减
②在随后的结构模建中,用Swiss-model模建的结构有时候会有配体,而配体在源代码中显示为Z轴。
这是VMD所不能识别的。
因此,在结构比对之前需要把配体删除(如果是带有配体的PDB原文件则不影响)
③结构比对如果出错不能比对可能原因是这些结构中含有某个差异太大导致比对不能的结构。
因此一般再比对是不要一开始就选全部比对(数据量大的话比对时间长如果有差异大的数据则这些时间等于浪费,数据量小可以先尝试全部比对),可以少量多次标记再进行。
1.3 序列谱的绘制
数据的处理。
用UltraEdit对数据进行处理。
从EXCEL中复制所有氨基酸到UltraEdit中,并将所有数字和空格删除。
一般选取列阵模式,可以竖行删除。
图4
序列谱的绘制。
打开WEBLOGO主页: /点击Creat创建序列谱。
在Multiple Sequence Alignment输入上一步编辑好的结果。
Colours选项选择Custom。
颜色设置一般如下:KRH->GREEN; DE->BLUE; FWY->PUPPLE; MV ALI->RED; G-ÆBLACK; NQ->RGB=>FFB300; TSPC->RGB=>FFB3FF。
注意,一般可以根据位点数量调节图片大小比例。
序列谱的验证。
用Consurf数据库(http://consurf.tau.ac.il)对序列进行打分。
进入页面后按提示操作即可。
2 进化树的构建
数据筛选。
将CAZy数据库中Characterized条目的Uniprot数据用Pfam进行搜索,保留本家族结构域,去除CBM等其他结构域。
(linker的保留与否视情况而定)
序列比对。
打开MEGA5。
新建Alignment(选择protein),输入筛选好的数据,点击比对。
保存文件
图5
制作进化树。
打开比对文件,选择Analysis中的系统发育树构建,选择NJ法构建进化树。
一般次数选
择1000次(比500次准一些,经验值)
图6
预处理及输出文件。
选择Bootstrap consensus tree。
在VIEW中有对树的一些显示方式。
其中的OPTION
可以设置枝的粗细等。
选择IMAGE可以输出图像文件。
在File中还可以输出NEWICK文件(以备后用)。
3 绘图与美化
进化树的美化。
进化树的美化有多种方式,这里介绍一种比较简单的工具。
iTOL(http://itol.embl.de/)
是EMBL制作的一个网站工具,这个工具可以对进化树进行很多美化处理。
图7
注册后开始添加文件。
一般一个新的Project需要输入的就是上文提到的Newick文件。
在主页面可以对树进行初步选择。
此外还可以对树进行颜色等编辑。
具体操作请参阅HELP页面。
选取颜色时建议
使用取色器读取RGB数值。
图8
图9
4 其他软件
在做生物信息学数处理时,为了保证数据的准确性和美观性,常使用不止一种软件或方法进行实验。
在此不详细说明,只列举。
序列比对:MEGA5可以进行序列比对。
其他一般用Clustalx等
结构比对:除了VMD外还有STRAP,这个软件相比VMD的优点是不卡,但是数据量大的话耗时也长。
模建:有些没有PDB结构的序列需要进行模建。
通常使用Swiss-model。
它的优点是返回数据块,模建事会自动把两段linker进行删减,缺点是有些模建的结构含有底物,会用Z轴标注,VMD不能识别,需要删除。
此外还有MODWEB也可对结构进行模建。
优点是在SLOW模式下能模建出一些Swiss模建的不好的结构,缺点是过于缓慢,一般SLOW模式需要1-2天,而FAST模式的模建结果不是很好。
绘图:进化树的绘制还可用FigTree;ACDchemSketch可以非常方便的绘制化学结构;一般用Photoshop 处理图片,但是矢量图用CorelDraw效果会更好;一些更好看的模式图可能需要MATLAB和3DMAX;蛋白质结构一般可用POV-RAY打光渲染。
以上提到的全部软件均有免费版本。