对漆酶进行物信息学相关分析 生物信息学是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。 生物信息学的主要研究对象是序列,即一维的分子排列顺序所分析,包括DNA分子碱基序列和编码蛋白质的氨基酸序列。DNA序列分析的主要任务是基因识别和发现某些功能区(如启动子、增强子等),DNA序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂DNA序列。蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码”。
在这篇论文中,通过生物信息学的各种软件和手段分析漆酶核酸性质,及蛋白质结构等信息,从而展示我对生物信息学的认知和运用。 本论文的LapA基因是本人从实验室铜绿假单胞菌593中克隆得到,并向NCBI中的GenBank提交序列得到序列登录号.在这篇论文中,我主要对第一个基因LapA(KJ841924)进行一系列生物信息学分析,由于个人学习有限,所用方法不多。
一.核酸序列的基本分析 1.运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。
SEQ LapA正确.seq: 960 bp; Composition 181 A; 370 C; 246 G; 163 T; 0 OTHER Percentage: 18.9% A; 38.5% C; 25.6% G; 17.0% T; 0.0%OTHER Molecular Weight (kDa): ssDNA: 294.07 dsDNA: 591.98 COLOURS sequence = 1 features = 0 核酸序列: ORIGIN
1 ATGTTCAAGC GCTCTCTGAT CGCTGCCTCG CTGAGCGTGG CCGCCCTCGT ATCCGCCCAA 61 GCCATGGCCG TCACCGGCGG TGGCGCTTCC CTGCCGGCCG AGCTGTACAA AGGCTCCGCC 121 GACAGCATCC TGCCGGCCAA CTTCAGCTAT GCCGTGACCG GCAGCGGCAC CGGCAAGAAC 181 GCTTTCCTGA CCAACAACTC CTCGCTGTTC GGCACCACCG GTACCGTTCA CTATGCCGGT 241 AGCGACTCGG TCCTCAGCGG TAGCGAACTG ACCACCTACA ACAGCAACTA CAACGGCACC 301 TACGGTCCGC TGATCCAGAT CCCGTCGGTA GCCACCTCGG TCACCGTGCC CTATCGCAAG 361 GACGGCAACA CCACGCTCAA CCTGACCAGC GCCCAACTCT GCGACGCCTT CTCCGGCGCC 421 AAGACCACCT GGGGTCAACT GCTGGGCACC ACCGACAGCA CGCCGATCCG CATCGTCTAT 481 CGCACCGGTA GCAGCGGCAC CACCGAACTG TTCACCCGCC ACCTGAACTC GATCTGCCCG 541 ACTCGCTTCG CCACCAACTC GACCTTTACC AACGCCCGTC TGCCGGCCGG CGGTACGTTG 601 CCGAGCAACT GGGTTGGCGT CGCCGCCACT TCCACCGTGG TGTCGACCGT CAAGGCAACC 661 AACGGCTCCC TCGGCTATGT CAGCCCGGAT GCGGTGAACA TCAACAGCAA CGCCGAGGTT 721 TCCCGTGTGA ACGGCAACCT GCCGACCCAG GCTAACGTTT CCACTGCCCT GGGCAGCGTG 781 GCTCCGCCGG CCAACGCCGC CGACCGTGCG GACCCCAGCA AGTGGGTTCC GGTGTTCACC 841 AATCCGAGCG CCGGCTACTC CATCGTCGGT TACACCAACT TCGTCTTCGG CCAGTGCTAC 901 AAGGACGCCA GCGTTTCCAC CGACGTCCGC GCCTTCATCA ACAAGCACTA CGGTGGCACT //
2.开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下: http://www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard
5'3' Frame 1 Met F K R S L I A A S L S V A A L V S A Q A Met A V T G G G A S L P A E L Y K G S A D S I L P A N F S Y A V T G S G T G K N A F L T N N S S L F G T T G T V H Y A G S D S V L S G S E L T T Y N S N Y N G T Y G P L I Q I P S V A T S V T V P Y R K D G N T T L N L T S A Q L C D A F S G A K T T W G Q L L G T T D S T P I R I V Y R T G S S G T T E L F T R H L N S I C P T R F A T N S T F T N A R L P A G G T L P S N W V G V A A T S T V V S T V K A T N G S L G Y V S P D A V N I N S N A E V S R V N G N L P T Q A N V S T A L G S V A P P A N A A D R A D P S K W V P V F T N P S A G Y S I V G Y T N F V F G Q C Y K D A S V S T D V R A F I N K H Y G G T
4.对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对manORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。[12] 网址如下: http://smart.embl-heidelberg.de/ 5.运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSMs Expect:0.01 Filter:Low complexity Search mode:multiple hits 1-pass 6.同源物种分析 用DNAMAN软件将蛋白质序列与GHF5的ß-甘露聚糖酶序列和GHF6的ß-甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。 7.蛋白质一级序列的基本分析 运用ExPASy(Expert Protein Analysis System)Tools对LapA ORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。
ProtParam User-provided sequence: 10 20 30 40 50 60 MFKRSLIAAS LSVAALVSAQ AMAVTGGGAS LPAELYKGSA DSILPANFSY AVTGSGTGKN
70 80 90 100 110 120 AFLTNNSSLF GTTGTVHYAG SDSVLSGSEL TTYNSNYNGT YGPLIQIPSV ATSVTVPYRK
130 140 150 160 170 180 DGNTTLNLTS AQLCDAFSGA KTTWGQLLGT TDSTPIRIVY RTGSSGTTEL FTRHLNSICP
190 200 210 220 230 240 TRFATNSTFT NARLPAGGTL PSNWVGVAAT STVVSTVKAT NGSLGYVSPD AVNINSNAEV
250 260 270 280 290 300 SRVNGNLPTQ ANVSTALGSV APPANAADRA DPSKWVPVFT NPSAGYSIVG YTNFVFGQCY
310 320 330 340 350 360 KDASVSTDVR AFINKHYGGT TTNAAVAAHG FIPLTPAWKS AIVSAFYTGT SENLAIGNTN VCNTKGRP References and documentation are available. Please note the modified algorithm for extinction coefficient.
Number of amino acids: 368 Molecular weight: 37885.2 Theoretical pI: 9.21
Amino acid composition: CSV format Ala (A) 44 12.0% Arg (R) 11 3.0% Asn (N) 29 7.9% Asp (D) 10 2.7% Cys (C) 4 1.1% Gln (Q) 6 1.6% Glu (E) 5 1.4% Gly (G) 35 9.5% His (H) 4 1.1% Ile (I) 13 3.5% Leu (L) 25 6.8% Lys (K) 11 3.0% Met (M) 2 0.5% Phe (F) 14 3.8% Pro (P) 19 5.2% Ser (S) 42 11.4% Thr (T) 46 12.5% Trp (W) 4 1.1% Tyr (Y) 14 3.8% Val (V) 30 8.2% Pyl (O) 0 0.0% Sec (U) 0 0.0%