当前位置:文档之家› 《总结课程》PPT课件

《总结课程》PPT课件

列逐一进行比对。
HHAFDEG ACDEGGG
4-2+6+5+6=19
《生物信息学》第九、十讲
A
B
C
大片段contig
小片段测序拼装
A
B
C
有特异性的分子路标,拼接准确,错误少, 但为确定分子路标而构建图谱相当耗时
A
B
C
小片段测序
计算机拼装
A
B
C
优点:不需预先了解任何基因组的情况 缺点:容易错误装配
内基因以及专一的多态性DNA标记(marker)相对位置的图谱,其研究经历了从经典的 遗传图谱到现代遗传图谱的过程。 7. 物理图谱(Physical map) 用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺序和实际距离排列的 图谱。以定位的DNA标记序列如序列标签位点STS作为路标,以DNA实际长度即bp、kb、 Mb为图距的基因组图谱。 8. 转录图谱 以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距 离绘制的图谱。 9. 序列图谱(分子水平的物理图谱) 序列图谱是指整个人类基因组的核苷酸序列图,也是最详尽的物理图谱, 既包括可转录 序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。 10.旁系同源 用来描述在同一物种内由于基因复制而分离的同源基因。也可译作并系同源、横向同 源。旁系同源体常见于同一物种,但也不是绝对如此。例如鼠的a球蛋白和b球蛋白基 因是paralog;并且,鼠的a球蛋白和鸡的b球蛋白基因的关系也是paralog
2.MMDB
MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自 于 X-ray 晶体衍射 和 NMR 色谱分析
《生物信息学》第三、四讲
“对于总是把他们亲爱的人的健康摆在 首位的美国公民来说,他们可以为他们的国 立医学图书馆而骄傲。
因为她从研究中获取生命科学的知识,加 以组织并传播给最可能利用这些知识的人, 以便他们同疾病、伤残作斗争,提高我们大 家生命的素质” 。
Blastp Blastx Tblastn TBlastx
蛋白质 核酸 蛋白质 核酸
蛋白质 蛋白质序列搜索逐一蛋白质数据库中的序列
蛋白质 核酸 核酸
核酸序列6框翻译成蛋白质序列后和蛋白质 数据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序列6框 翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列,再和核酸 数据库中的核酸序列6框翻译成的蛋白质序
名词解释
Fasta格式:
FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以大于号议每行的字符数不超过80个,以比对程序的处理。
医学主题词MeSH
是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描
1986年1月29 日, 里根总统签署了一项声明,宣布1986年为美国国立医学图 书馆150 周年纪念年。
/
MEDLINE
Publisher supplied citations
PreMEDLINE
• MeSH是Medical Subject Headings的缩略词,即医 学主题词,是用规范化的医学术语来描述生物医 学概念。NIH的工作人员按MeSH词表规定,浏览 生物医学期刊全文后标引出每篇文献中的MeSH 主题词,其中论述文献中心的主题词称主要主题 词(major topic headings),论述主题某一方面的 内容的词称为副主题词。
去生活,去犯错,去跌倒, 去胜利,去用生命再创生命。
----詹姆斯·乔伊斯
名词翻译
STS:序列标签位点 EST:表达序列标签 ORTHOLOGS:直系同源 PARALOGS:旁系同源 CDS:编码序列 EXON:外显子 ORF:开放阅读框 PHI-BLAST:模式识别BLAST PSI-BLAST:位置特异的迭代BLAST SNP:单核苷酸多态性
截词检索只限于单词,对词组无效,
NCBI
检索文献 Entrze
PubMed
检索序列 Entrze
GenBank
比对序列 Blast
GenBank
最主要的以下三种
• High-Throughput Genomic Sequence (HTGS)
• Whole Genome Shotgun Sequences (WGS) • EST, STS, and GSS
EMBL
EBI 数据搜索系统
DDBJ
NIG
Entrze检索系统:NCBI SRS检索系统:EMBL、DDBJ
GenBank EMBL DDBJ
GenBank格式 EMBL格式 DDBJ格式
The Swiss-Prot groups from the SIB and the EBI (2002) - (Photo by : Amos Bairoch, SIB)
生物信息学 复习重点
《生物信息学》第一讲
生物信息学从事对基因组研究相关生 物信息的获取、加工、储存、分配、 分析和解释。
1. 一是对海量数据的收集、整理与服务, 也就是管好这些数据。
2. 另一个是从中发现新的规律,也就是用 好这些数据。
《生物信息学》第二讲
生物信息学数据库
生物信息学数据库
一次数据库
2、PubMed检索的四个主要特点? 1)支持词汇自动转换 2)支持词组检索(需要加引号) 3)支持布尔逻辑运算 4)支持截词检索
4、全基因组鸟枪法测序的步骤,鸟枪法测序的特点? 全基因组鸟枪法测序的主要步骤是:第一,建立高度随机、克隆片段的碱基总数应达到基因组5倍成流 感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必 需的28,463个测序反应,测序总长度达6倍基因组。第三,序列集合。 TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的 连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模 板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。法测序的缺点
只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的
出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。
6. 遗传图谱(Genetic map) 又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map) ,是指人类基因组
1、随着所测基因组总量增大,所需测序的片段大量增加。 2、高等真核生物(如人类)基因组中有大量重复序列,导致判断失
误。
2001年2月,文特尔小组所做的人类基因组测序报告发表在《科学》杂志上 科林斯带领的公共资金支持的实验室联合体的报告同时发表在《自然》杂志上
Public HGP
Celera Genomics
❖“复杂而没有生命的化学物质可以构成我们的 遗传密码,这是如此的奇妙,更能体现人类的精 神,足以让哲学家和诗人们感叹一千年”
• EST:表达序列标签 • STS:序列标签位点 • GSS:基因组短序列
《生物信息学》第五、六讲
序列比对的过程
建立评分矩阵
Pam250 blosum62
执行比对
fasta
(动态规划算法) blast
确定最佳途径
历史寻踪 简单了解 Dayhoff 矩阵
最大的成绩或许就是得分矩阵的出现, Dayhoff被称作生物信息学之父或 许更合适。
PAM模型可用于寻找蛋白质的进化起源
BLOSUM模型则用于发现蛋白质的保守域
0.3=2-(1+2/3)
局部比对
序列1:GCC-UCG 序列2:GCCAUUG
全局比对
序列1:CAGCC-UCGCUUAG 序列2:AAUGCCAUUGACGG
《生物信息学》第七、八讲
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
Dr. Margaret Oakley Dayhoff, credited as the founder of Bio-Informatics, ca. 1980
Relationship between scoring matrices. The BLOSUM62 has become a de facto standard scoring matrix for a wide range of alignment programs. It is the default matrix in BLAST
Uniprot 特点
• 高质量 • 更新速度快 • 与其他数据库联系密切 • 使用快捷方便 • 分析工具齐全
结构数据库
1.PDB数据库
1971年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过X射线衍射和核磁共振 (NMR)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质 结构的最细致的层次。该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics, RCSB
(二)短语检索
• 如果在短语上加双引号,将不执行转换功能
例如: “single cell”
(三)布尔逻辑运算: AND、OR、NOT必须大写 比如“single cell” AND “Vitamin C”
(四)截词检索:*
• 例:输入bacter*,检出bacteria、bacterium等 备注:将不执行转换功能;
BLAST (基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列 数据库中所有DNA或者蛋白质的 相似性搜索程序
相关主题