当前位置:文档之家› 生物物理课件

生物物理课件


Uneven usage of codons may characterize a real gene!
Eukaryotic ORF prediction
Signals defining ORFs in eukaryotic genes: - Start codon: ATG - Stop codons: TAG, TGA, TAA - Splicing donor sites: usually GT - Splicing acceptor sites: usually AG
Gene Prediction
王 秀 杰
中科院遗传发育所
xjwang@
Ideal case
Real world
What is a gene?
The word gene was first used by Wilhelm Johannsen in 1909, based on the concept developed by Gregor Mondel in 1866. Wilhelm Johannsen’s definition of a gene :
The structure of eukaryotic (真核生物的) genes
The structure of eukaryotic (真核生物的) genes
Open Reading Frames (ORFs)
Protein coding gene prediction is to detect potential coding regions by looking for ORFs
New definition:
A gene is a locus (or region) of DNA that encodes a functional protein or RNA product, and is the molecular unit of heredity.
Gene Prediction
Gene
Gene prediction is the basic for functional studies
Finding all genes in a genome could be hard
Finding all the genes is hard
- Mammalian genomes are large 8000 km of 10 bp type
Signals defining ORFs in eukaryotic genes: - Start codon: ATG - Stop codons: TAG, TGA, TAA
- Splicing donor sites: usually GT - Splicing acceptor sites: usually AG
- Coding frame - Codon usage
Gene syntax rules
The common gene syntax rules for forward-strand genes:
Conceptual gene finding framework
Conceptual gene finding framework
- Only about 1% coding proteins
- Non-coding RNAs are more difficult to be predicted
The structure of prokaryotic (原核生物的) genes
Promoter structure of prokaryotic (原核生物的) genes
Six Frames in a DNA Sequence
Six Frames in a DNA Sequence
Codon usage selection in translation
Codon usage selection in translation
Codon usage in mouse genome
“The special conditions, foundations and determiners which are present [in the gametes (配子) in unique, separate and thereby independent ways [by which] many characteristics of the organism are specified.”
Gene prediction: To identify all genes in a genome
atgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcg atgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcg gctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttg gctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttg ggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttgg ggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttgg aatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaa aatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaa gctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcat gctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcat gcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaat gcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaat gctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatg gctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatg cggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatg cggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatg cggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggct cggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggct atgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggct atgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggct atgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatg atgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatg aatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttggg aatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttggg atttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgac atttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgac aatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgca aatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgca tgcggctatgctaagct tgcggctatgctaagct
相关主题