基因家族生信分析一、什么是基因家族概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。
在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件(*.hmm)●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数据(*.fa,*.gff)●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化关系,从进化关系上揭示其多样性)●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能,或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息,_v2.0/在线绘制基因染色体位置图通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是否能形成基因簇(被认为是通过重组与错配促进基因交流)●基因结构分析从gff文件中抽取基因的结构信息,绘制转录本结构图。
●计算串联重复基因的Ka,Ks1.首先将筛选到的基因的cds序列进行多序列对比,筛选identity > 75%,tength大于对比的两条序列中较长的那条的长度的75%,将筛选到的基因分别用clustalw进行比对,比对结果导入KsKs_Calculster计算Ka,Ks、Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代(ks)的平均速率。
2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选择,有利于适应性遗传,这些受正向选择的基因将作为以后的研究重点。
软件的安装从图片中获得进入NCBI-blast官网复制blast-linux版本的链接在Linux终端1.blast的安装#wget blast链接#tar xvfz 文件名解压缩文件# mv 解压缩文件/root/local/app# mv 解压缩文件blast# vi .bashrc#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行#blastp -version 查看是否安装成功。
2.hummer的安装#yum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。
3.perl的安装#wget 源代码链接# tar xvfz perl- 解压缩#cd perl-5.28.1#./configure#make#make install 安装完成。
3.bioperl 的安装#wget -O - | bash#perlbrew install-cpanm#/root/perl5/perlbrew/bin/cpanm Bio::Perl三、具体操作:1.保守域结构分析下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。
以拟南芥为例:下载完成后,需要将文件传到Linux系统上进行分析:打开虚拟机输入ip a将虚拟机IP连接到Xshell上,在Xshell上进行操作,将文件通过xftp(同样需要连接IP)传到Linux系统上,然后进行解压。
(一个命令解压多个文件:gunzip*.gz)接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列安装hummsearchyum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。
解压文件移动到APP目录下面在app目录下面新建文件夹 mkdir hmmer将hmmer- mmove -v c:/hmmer-3.2.1 c:/hmmer删除安装包打开文字编辑器vi ~/.bashrc在文字编辑器里最后一行添加以上内容安装好wget如果make check出现错误百度用以下方法解决出现complete安装完成#source ~/.bashrc#which hmmsearch至此hmmer安装完成。
虚拟机操作:1.导入下载好的文件;2.hmmsearch --cut_tc –domtblout NB-ARC.txt NB-ARC.hmm Arabidopsis_thaliana.TAIR10可以用editplus打开.txt文件3. perl domain_xulie.pl 结果文件.txt 蛋白序列文件domain.fa 1e-204.clustalw进行多序列比对,得到aln文件和dnd文件。
5.hmmbuild 拟南芥特异的hmm模型文件domain.aln6.hmmsearch –cut_tc –domtblout result.txt newhmm文件蛋白质序列文件7.在Excel中,根据特定的evalue进行筛选,并对第一列进行去重复,得到第一列去重复的id,保存为id.txt8. 用perl脚本根据id提取序列Per get_fa_by_id.pl id.txt 蛋白序列wenjain >结果输出文件可以根据的得到的序列文件进行后续的构建进化树、motif分析等。
2.搜索基因家族成员的MOTIF2.1 需要准备的文件1. 拟南芥NBS基因蛋白质序列2. 蛋白保守结构域的隐马尔科夫模型矩阵文件2.2 MOTIF的搜索使用meme软件命令:meme nbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50搜索结果存放在nbs_motif文件夹中。
文件夹中的eps文件可以用AI打开编辑,可以另存为png或jpg格式,也可打开网页版,也可用tbtools软件打开,下载motif在基因上的位置信息。
3. 绘制基因在染色体上的位置图3.1 需要准备的文件1. 拟南芥NBS基因id2. 拟南芥的注释文件(gff3文件)3. 拟南芥基因组长度4.1在线绘图工具:MapGene2Chrom4.2 samtools faidx 拟南芥. 可得到拟南芥. 该文件包括各个染色体,染色体长度。
4.3 对基因的id文件在Excel中进行分列,去重复处理。
4.4 使用处理过的id文件,对拟南芥的注释文件进行筛选使用perl脚本得到基因在染色体上的位置。
命令:perl get_gene_gff.pl -in1 基因的id文件-in2 拟南芥gff3文件-out 新文件名称4.5 新文件存放的是基因在染色体上的位置4.6在在线文件MapGene2chrom 中,将基因在染色体上的位置信息文件复制到,input1框中,在input2中粘入samtools得到的fai文件。
4.绘制转录本的结构图4.1 需要准备的文件1. 拟南芥NBS基因转录本id(通过家族成员鉴定得到的蛋白id文件)2.拟南芥基因的注释文件(gtf文件)3.在线绘图工具:Gene Structure Display Server 2.0http://4.2 具体方法1. 准备gtf文件:输入命令:gffread gff3注释文件-T -o 输出文件(gtf文件)2.editplus 打开gtf文件,去除”transcript:”3. 使用perl脚本提取拟南芥转录本结构信息:命令:perl get_gtf.pl -in1 拟南芥转录本id文件-in2 gtf文件-out 输出文件(nbs_gtf.txt)4.通过在线绘图工具,进行绘图。
5.筛选出串联重复基因5.1准备文件1.拟南芥NBS基因CDS序列串联重复基因筛选标准【(a)length of alignable sequence covers>75% of longergene,and(b) similarity of aligned regions >75%】参考文献:Extent of gene duplication in the genomes of Drosophila, nematode, and yeast.2.由于筛选时产生的文件较多,因此创建新的目录:mkdir 新目录3.用editplus 打开家族成员的id文件,对转录本id进行处理,使一个基因只拿一个转录本。
4.把id复制到Excel,首先排序处理,然后进行分列,然后以第一列删除重复值。
最后将第一列和第二列进行合并。
将处理好的id导入Linux。
5.使用perl脚本提取cds序列:命令:perl get_fa_by_id.pl id文件拟南芥cds 序列文件> cds.fa6.使用blast软件筛选串联重复基因6.1建立目标序列的数据库:makeblastdb -in cds.fa -dbtype nucl -title cds.fa 6.2 进行多序列比对:blastn -query cds.fa -db cds.fa -evalue 1e-20 -outfmt 9 -out result.txt6.3 用editplus打开6.4 得到cds序列的长度,使用samtools工具建立索引:命令:samtools faidx cds.fa6.5 用perl脚本对result.txt进行筛选,perl KAKS_SHAIXUAN.pl -in1 -in2 result.txt -out cleanresult.txt6.6 用editplus打开,将内容复制到Excel,在id后插入一列用公式:if (A1>B1,A1&B1,B1&A1)。