当前位置:
文档之家› 生物信息学资源与数据挖掘工具
生物信息学资源与数据挖掘工具
KEYWORDS .
SOURCE Zea mays subsp. parviglumis
ORGANISM Zea mays subsp. parviglumis
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; PACCAD
clade; Panicoideae; Andropogoneae; Zea.
REFERENCE 1 (bases 1 to 470)
AUTHORS Tenaillon,M.I., U'Ren,J., Tenaillon,O. and Gaut,B.S.
TITLE Selection Versus Demography: A Multilocus Investigation of the
“-”表示间隔
多序列FASTA
>sequence1, E. coli ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgcta gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc >sequence2, B. subtilis ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgcta gctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc >sequence3, B. natto ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgcta gctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc
source
1..470
/organism="Zea mays subsp. parviglumis"
/mol_type="genomic DNA"
/cultivar="Benito Juarez"
/sub_species="parviglumis"
/specimen_voucher="PI331789 (USDA/NCRPIS)"
PHYLIP序列格式
例子
5 15 Sequence1 agctggcttaaggcc Sequence2 tcggactagagaatc Sequence3 gggacattacga--t Sequence4 gaataactag-gact Sequence5 ag--gata---gaag
第一行:序列数和序列长度(包括间隔) 每一条序列长度相等
管理着许多著名数据库,如GenBank、 Medline、dbSNP、COG、OMIM等
提供Entrez、BLAST等服务
EBI
欧洲生物信息学研究所(European Bioinformatics Institute)
1994年建于英国剑桥,前身是德国海德堡的欧 洲分子生物学实验室的信息服务部门
61 aatataggtt gtcagcgact acgaaagttt ttattgacga tcctcttgcg attctgcagc
121 tatcaaagga ataaagacca gccaaagacc tctagctgta gccgcataag gagctggacg
181 tgtaatcatt tactctgtgc aagtttacca gtgatgcgat ctgtatagat gtgtgtcttg
nr htgs wgs env_nt
GenBank 查询(1)
选数据库
已知收录号
输入收录号 (accession number)的
查询结果摘要
情况
点击查看详细结果
GenBank查询
查看详细结果 DNA
GenBank查询:Protein
GenBank序列格式
LOCUS AY513897
创立于1949年7月1日,属文部省管辖 信息服务始于1984年 维护管理着DDBJ
1987年1月发行DDBJ第一版
http://www.nig.ac.jp
其他重要中心
HHMI (Howard Hughes Medical Institute) [美]
MIPS (Munich Information Center for Protein Sequences) [德]
W 色 (tryptophan)
I 异亮 (isoleucine) Y
酪 (tyrosine)
K
赖 (lysine)
Z
E或Q
L
亮 (leucine)
X 任何氨基 (any)
M 甲硫 (methionine) * 翻译终止(translation stop)
N 天冬酰胺(asparagine) –
不确定长度间隔
421 tttggggtcg atgaaccctc tggtgttatt cttcagactg gtaaacgatg
R
精 (arginine)
D 天冬(aspartic acid) S
丝 (serine)
E 谷 (glutamic acid) T 苏 (threonine)
F 苯丙(phenylalanine) U 硒代半胱(selenocysteine)
G
甘 (glycine)
V
缬(valine)
H
组 (histidine)
FASTA序列格式中的核苷酸表示法
A 腺嘌呤(adenosine) M A或C (amino)
C 胞嘧啶(cytidine) S G或C (strong)
G 鸟嘌呤(guanine) W A或T (weak)
T 胸腺嘧啶(thymidine) B
G或T或C
U 尿嘧啶(uridirocess in Maize
JOURNAL Mol. Biol. Evol. 21 (7), 1214-1225 (2004)
PUBMED 15014173
REFERENCE 2 (bases 1 to 470)
AUTHORS Tenaillon,M.I., U'Ren,J., Tenaillon,O. and Gaut,B.S.
每个专辑大约介绍100多种库 从2000年起,该杂志的出版社(牛津大学出版
社)设立了一个数据库目录网页
其他数据库列表
NIH全球数据库列表
/molbio/db.ht ml
CBI的生物数据库镜像列表
/db_xref="taxon:76912"
/chromosome="1"
/country="Mexico"
misc_feature 1..470
/note="RFLP marker csu1171"
ORIGIN
1 cagactacgc tgaaggcatg gtttcttctc agtgtcattc atgctctaaa tttgaaattc
EBI接收了原来EMBL数据库的管理和维护
是欧洲分子生物学网(EMBnet)的一个特别节 点
/ (主页)
/ (工具)
/ (服务)
NIG
日本国立遗传学研究所(National Institute of Genetics)
R
G或A (purine)
H
A或C或T
Y T或C (pyrimidine) V
G或C或A
K
G或T (keto)
N A或G或C或T (any)
– 不确定长度间隔
FASTA序列格式中的氨基酸表示法
A
丙 (alanine)
P
脯 (proline)
B
D或N
Q 谷氨酰胺(glutamine)
C
半胱 (cystine)
四、核酸数据库
国际核苷酸序列数据库联盟
International Nucleotide Sequence Database Collaboration (INSDC)包括
GenBank [美] /Genbank
EMBL [欧] /embl/
470 bp DNA linear PLN 14-JUN-2004
DEFINITION Zea mays subsp. parviglumis voucher PI331789 RFLP marker csu1171.
ACCESSION AY513897
VERSION AY513897.1 GI:42405706
SIB (Swiss Institute of Bioinformatics) [瑞士]
SWISS-PROT, ExPASy, ENZYME, …
NCGR [美], JIPID [日], HGMP[英], BioBase [丹], …
二、数据库目录
NAR数据库专辑
从1994年开始,《核酸研究》杂志(Neucleic Acids Research)每年第一期是生物数据库 专辑