当前位置：文档之家› 基因组学数据分析

基因组学数据分析

与核酸相关的数据库
与蛋白质相关的数据库
BlastN
序列或目标序列的GI号以文件格式上传
选择数据库
配对与错配
空位罚分
BlastP
打分矩阵： •PAM30 •PAM70 •BLOSUM80 •BLOSUM62 •BLOSUM45
PAM模型可用于寻找蛋白质的进化起源，而BLOSUM模型则用于发现蛋白质的保守域。
选择物种
选择blast程序
QuerySequence
AminoacidSequence
DNASequence
BLASTp
tBLASTn
Translated
BLASTn
BLASTx
Translated
tBLASTx
Tr
Nucleotide Database
5’端到3’端第一位起始： ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始： TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始： GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C
例：formatdb -i db -p T 对蛋白质数据库“db”进行格式化
程序运行
blastall命令用于运行五个blast子程序: blastall [option1] [option2] [option3] *可在dos下输入blastall查看各个参数的意义及使用 • blastall常用参数四个必需参数 -p program_name,程序名，根据数据库及搜索文件序列性质进行选择； -d database_name,数据库名称,比对完成格式化的数据库； -i input_file,搜索文件名称； -o output_file,BLAST结果文件名称；两个常用参数 -e expectation，期待值,默认值为10.0，可采用科学计数法来表示，如2e-5； -m alignment view options:比对显示选项，其具体的说明可以用以下的比对实例说明例：blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格显示比对结果) 采用blastx程序，将in中的序列到数据库bd中进行比对，结果以表格形式输入到out文件
实
习
一
基因组数据注释和功能分析
课程内容
实习一实习二基因组数据注释和功能分析核苷酸序列分析
基因组学系统生物学
实习三
实习四实习五实习六
芯片的基本数据处理和分析
蛋白质结构与功能分析蛋白质组学数据分析
转录物组学
蛋白质组学
系统生物学软件实习
课程提纲
1. 通过序列比对工具BLAST学习，了解蛋白编码基因的功能注释原理 2. 介绍多序列联配工具ClustalX 3. 分子进化分析软件MEGA4的基本知识，掌握系统发生树绘制的基本方法
– “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ”
选择打分矩阵（scoring matrix）
• • •
The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.
1. 对contig34进行网上blastn（演示）， 2. blastx（自行操作）比对
本地运行BLAST
• • • • • 下载NCBI上blast程序： ftp:///blast/executables/release/ 安装（安装到C:\）数据库的格式化（formatdb）程序运行（blastall）
登陆NCBI的FTP下载blast程序
•bin含可执行程序(将数据库及需要比对操作的数据放入该文件)； •data文件夹含打分矩阵及演示例子的序列数据信息； •doc文件夹含关于各子程序的说明文档。
双击安装到C盘产生三个文件夹 •bin •data •doc
将数据库文件(db)及目标序列文件(in)保存在Blast/bin 文件夹下
• •
•
进行比对的数据库
图形化结果
E值（E-value）表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零，发生这一事件的可能性越小。
上机实习1：网上运行blastx和blastn
(NCBIblast网址：/BLAST/）
blastn
Nucleotide
Nucleotide
blastx
Nucleotide
Protein
tblastn
Protein
Nucleotide
tblastx
Nucleotide
Nucleotide
以Blastx为例：
目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 6个读码框翻译
3’端到5’端第一位起始： GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始： CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始： GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
本地数据库的构建
• 查看db文件由fasta格式的序列组成
数据库的格式化
formatdb命令用于数据库的格式化： formatdb [option1] [option2] [option3]„
formatdb常用参数 -i database_name 需要格式化的数据库名称 -p T\F 待格式化数据库的序列类型（核苷酸选F；蛋白质选T；默认值为T)
The BLOSUM family Based on local alignments. BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.
上机实习2:本地运行blastx
• • • • 进入DOS命令行提示符状态（“运行”cmd）进入C盘“cd\” 进入包含序列数据的bin目录下“cd blast\bin” 察看目录下内容“dir”
• 格式化数据库db“formatdb -i db -p T”
• 运行blastx
输入数据库类型：F/T
>lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTC TGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGC CTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGC CTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTC AGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGA GACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGC ACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTC AGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGC CTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCA TAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGT AGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGT GTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC

e商务文档

基因组学数据分析

相关文档推荐：