当前位置：文档之家› 生物信息学作业

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析姓名：学号：专业：1前言细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2)，又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase)，其基因定位于人类基因组的12号染色体上的q13染色带上。

CDK2基因全长6013bp，这部分中有7个外显子和6个内含子，7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。

在翻译过程中，该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译，属于调控序列。

mRNA上只有中间的部分编码蛋白质。

CDK2基因可以转录为两种mRNA。

其中，变体1长度为2325bp，编码298个氨基酸；变体2长度为2223bp，编码264个氨基酸。

这两种蛋白质为CDK2的同型蛋白，功能相同，具有调控细胞分裂的功能，主要在G1期到S期和S期到G2期这两个阶段起作用。

CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中，但只在进行分裂的细胞中行使功能，这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。

CDK2可以与细胞周期蛋白A、B1、B3、E等结合后，参与细胞周期调控。

由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症，故CDK2基因可以被看作癌基因，其活性和表达量可以作为衡量癌症的指标。

CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控，还能与类Rb蛋白p107或转录因子E2F结合，促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。

而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。

在CDK2分子中，被称为T环的氨基酸环阻断了活性部位，妨碍激酶履行它的酶功能，而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。

CDK2与周期蛋白结合时，周期蛋白将T环转出2nm以上，又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。

CDK2的活性不仅与周期蛋白有关，还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。

一般情况下，与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化，但此时复合体还没有活性，只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后，复合体才有活性。

细胞中存在多种因子对CDK2进行修饰调节，此外还存在对其活性起负性调控的蛋白质，即CDK激酶抑制物，例如p21CIP/WAF1、p27KIP2等。

前面提到，CDK2基因转录的产物有两种。

这两种mRNA的不同之处在于变体1由全部7个外显子组成，而变体2缺失外显子5，由剩余的6个外显子组成。

这样翻译成的两种同型蛋白的长度就相差34个氨基酸。

2 材料和方法：2.1序列数据来源采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索，CDK2蛋白的记录有1013个。

而采用基因名称对NCBI非冗余核酸数据库进行检索，CDK2蛋白的记录有680个。

采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。

2.2序列分析方法2.2.1 序列比对方法将以上序列数据以fasta格式作成一个文件后，用ClustalX2进行全序列自动比对。

比对过程中采取自动比对和手动比对相结合，输出格式为Clustal格式（.aln）。

2.2.2分子系统发育分析方法用MEGA4.0（Molecular Evolutionary Genetics Analysis 4.0）进行系统发育分析。

采用MEGA4.0的邻接法（Neighbor-joining method, NJ）和最大简约法（Maximum parsimony method, MP）建树。

NJ方法中采用Poission校正的氨基酸取代模型，在MP方法中采用CNI的方法搜索最简约树。

在两种方法中对空位的处理都采取全部删除（Complete deletion）策略，同时采用自举检验(bootstrap test，重抽样500次)估计系统树中结点的置信值（BCL值）。

2.2.3蛋白质家族和基序与结构域分析方法所研究蛋白质在PFAM、PROSITE等蛋白质二次数据库中的分类情况2.2.4蛋白质三级结构与结构分类分析所研究蛋白质在蛋白质结构数据库中的分类情况3 结果3.1 序列的查询情况CDK2在HomoloGene数据库中只有1条记录，即：HomoloGene:74409. Gene conserved in Eukaryota，其中有18个物种的19条蛋白质序列。

3.2 序列的比对情况从19条蛋白质序列的比对结果可以看出，这些序列的高度同源区较多，大致可分为7个区域。

这些区域的序列有较高的保守性，是蛋白质的功能区。

个别序列有十几到几十个长度不等的插入序列，这可能与蛋白质的外显子剪接或编码基因的突变有关，这一区域在功能上的作用较小。

以蛋白质的起始氨基酸为例，19条序列的起始氨基酸均为甲硫氨酸，但比对的结果却是有5条序列的的前几个氨基酸被认为是插入的。

这可能的原因是如果认为19条序列的起始氨基酸均为甲硫氨酸，则其中有5个因为会给比对体系带来过多的空位，从而降低了整个体系的评分。

3.3 序列之间的遗传距离DescriptionData Type : Amino acid Analysis : Pairwise distance calculation ->Compute : Distances only Include Sites : ->Gaps/Missing Data : Complete DeletionSubstitution Model : ->Model : Amino: Poisson correction ->Substitutions to Include : All ->Pattern among Lineages : Same (Homogeneous) ->Rates among sites : Uniform ratesNo. of Sites : 284 d : Estimate[1] Homo_sapiens [2] Pan_troglodytes [3] Canis_familiaris [4] Bos_taurus [5] Mus_musculus [6] Rattus_norvegicus [7] Danio_rerio [8] Drosophila_melanogaster [9] Anopheles_gambiae [10] Schizosaccharomyces_pombe[11] Saccharomyces_cerevisiae [12] Kluyveromyces_lactis [13] Ashbya_gossypii [14] Magnaporthe_grisea[15] Neurospora_crassa [16] Arabidopsis_thaliana [17]Oryza_sativa_1 [18]Oryza_sativa_2 [19] Plasmodium_falciparum[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18][ 1][ 2] 0.000[ 3] 0.011 0.011[ 4] 0.014 0.014 0.011[ 5] 0.011 0.011 0.007 0.004[ 6] 0.011 0.011 0.007 0.004 0.000[ 7] 0.100 0.100 0.088 0.092 0.092 0.092[ 8] 0.423 0.423 0.434 0.434 0.434 0.434 0.439[ 9] 0.507 0.507 0.501 0.507 0.501 0.501 0.496 0.429[10] 0.391 0.391 0.402 0.402 0.397 0.397 0.413 0.519 0.606[11] 0.456 0.456 0.456 0.450 0.456 0.456 0.450 0.568 0.568 0.413[12] 0.484 0.484 0.484 0.478 0.484 0.484 0.478 0.549 0.580 0.407 0.124[13] 0.462 0.462 0.462 0.462 0.462 0.462 0.450 0.561 0.586 0.407 0.136 0.088[14] 0.391 0.391 0.402 0.402 0.397 0.397 0.423 0.531 0.586 0.351 0.331 0.321 0.297[15] 0.381 0.381 0.386 0.381 0.386 0.386 0.407 0.519 0.580 0.361 0.316 0.326 0.316 0.104[16] 0.366 0.366 0.366 0.366 0.366 0.366 0.356 0.525 0.531 0.445 0.467 0.473 0.467 0.423 0.402[17] 0.361 0.361 0.361 0.371 0.371 0.371 0.366 0.543 0.549 0.434 0.456 0.467 0.445 0.381 0.381 0.173[18] 0.407 0.407 0.402 0.397 0.397 0.397 0.402 0.599 0.561 0.439 0.467 0.473 0.456 0.423 0.402 0.164 0.168[19] 0.462 0.462 0.462 0.467 0.462 0.462 0.467 0.612 0.638 0.574 0.543 0.543 0.549 0.537 0.561 0.434 0.439 0.4563.4 序列/物种之间的系统发生重建结果分子系统发育分析结果中NJ法和MP法分析结果见图1及2。

Homo sapiensPan troglodytesMus musculusRattus norvegicusBos taurusCanis familiarisDanio rerioDrosophila melanogasterAnopheles gambiaeSchizosaccharomyces pombeMagnaporthe griseaNeurospora crassaSaccharomyces cerevisiaeKluyveromyces lactisAshbya gossypiiOryza sativa 1Arabidopsis thalianaOryza sativa 2Plasmodium falciparum 图1：CDK2蛋白分子进化树：NJ（Neighbor joining）分析，分枝上显示的数字是Bootstap检验获得的BCL (bootstrap confidence level) 值。

e商务文档

生物信息学作业

相关文档推荐：