生物信息学课程设计报告题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因专业:生物技术班级:11-2学号:***********姓名:***指导教师:***广东石油化工学院生物工程系2013年 12 月 21 日摘要生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。
关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树目录1绪论 (4)1.1生物信息学的发展概况 (4)1.2生物信息学的发展展望 (4)2 课题设计内容 (5)2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6)2.2以设计内容1为目标序列进行BLAST分析 (7)2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9)2.4以8条基因序列进行多序列比对 (10)2.5依照设计内容4构建系统发育树 (10)2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12)参考文献 (16)1.绪论2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。
毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科。
粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。
基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。
了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。
它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
1.1生物信息学的重要研究课题1. 大规模基因组测序中的信息分析2. 新基因和新SNP的发现与鉴定3.非编码区信息结构分析4.遗传密码的起源和生物进化5.完整基因组的比较研究6.大规模基因功能表达谱的分析7.生物大分子的结构模拟与药物设计8.生物信息学分析方法的研究9.建立国家生物医学数据库与服务系统10.应用与发展研究1.2生物信息学的发展展望作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中强有力的必不可少的研究手段。
在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。
许多科研单位已经开始或准备开始从事这方面的研究工作。
北京大学研究建立起一个EMBL的镜像数据库,并提供数据检索服务。
在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。
中科院上海生化所、生物物理等在结构生物学和基因预测研究方面也有相当的基础,中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息方面投入大量的人力物力,从事相关的研究。
生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将"有用"新基因抢先注册专利的目的。
在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。
2.课题设计内容2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式。
打开/按下图输入关键词搜索Genbank:LOCUS Y19118 1141 bp DNA linear BCT06-JAN-2001DEFINITION Salmonella typhimurium partial tetG gene for tetracycline resistance protein.ACCESSION Y19118VERSION Y19118.1 GI:12054722KEYWORDS tetB gene; tetracycline resistance.SOURCE Salmonella enterica subsp. enterica serovar Typhimurium (Salmonellatyphimurium)ORGANISM Salmonella enterica subsp. enterica serovar TyphimuriumBacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;Enterobacteriaceae; Salmonella.REFERENCE 1AUTHORS Frech,G. and Schwarz,S.JOURNAL UnpublishedREFERENCE 2 (bases 1 to 1141)AUTHORS Schwarz,S.P.TITLE Direct SubmissionJOURNAL Submitted (18-JUN-1999) S.P. Schwarz, Inst. fuer Tierzucht und Tierverhalten, FAL, Doernbergstr. 25-27, 29223 Celle, GERMANYFEATURES Location/Qualifierssource 1..1141/organism="Salmonella enterica subsp. enterica serovar Typhimurium"/mol_type="genomic DNA"/strain="ST425"/db_xref="taxon:90371"gene <1..>1141/gene="tetG"CDS <1..>1141/gene="tetG"/note="efflux protein of hybridization class G"/codon_start=1/transl_table=11/product="tetracycline resistance"/protein_id="CAC21193.1"/db_xref="GI:12054723"/db_xref="GOA:Q9EVV5"/db_xref="InterPro:IPR001958"/db_xref="InterPro:IPR005829"/db_xref="InterPro:IPR011701"/db_xref="InterPro:IPR016196"/db_xref="InterPro:IPR020846"/db_xref="UniProtKB/TrEMBL:Q9EVV5"/translation="LLIVGLDAMGLGLIMPVLPTLLRELVPAEQVAGHYGALLSLYAL MQVVFAPMLGQLSDSYGRRPVLLASLAGAAVDYTIMASAPVLWVLYIGRLVSGVTGAT GAVAASTIADSTGEGSRARWFGYMGACYGARMIAGPALCGMLGGISAHAPFIAAALLN GFAFLLACIFLKETHHSHGGTRKPVRIKPFVLLRLDDALRGLGALFAVFFIIQLIGQV PAALWVIYGEDRFQWNTATVGLSLAAFGATHGIFQAFVTGPLSSRLGERRTLLFGMAA YGTGFVLLAFATQGWMVFPILLLLAAGGVGMPALQAMLSNNVSSNKQGALQGTLTSLT NLSSIAGPLGFTALYSATAGAWNGWVWIVGAILYLICLPILRRPFA"ORIGIN1 ctgctgatcg tgggtcttga cgccatgggt ctcggcctca tcatgcccgt ccttccgacg61 cttctgcgtg agcttgtgcc agcagagcag gtcgctggac actatggtgc cttgctgtcg121 ctctatgcat tgatgcaggt cgtcttcgcg cccatgcttg gacagctttc ggattcttac181 ggtcggcgtc cggtacttct ggcttctctt gcaggagccg cagtcgatta cacgattatg241 gcatcagcgc cggtcttatg ggtgctctat atcggccgac tcgtgtccgg cgtcacgggc301 gcaaccggag ctgtagcagc ctcaaccatt gccgattcga cgggggaagg ttctcgcgca361 cgctggttcg gctacatggg ggcctgttat ggggcgcgca tgattgccgg gccagcactt421 tgtggcatgc tcggtggtat ctctgctcat gccccgttta tcgccgccgc ccttctcaac481 gggttcgcgt tcctgcttgc ctgcattttc ctcaaggaga ctcatcacag ccatggcggg541 acccgaaagc cggttcgcat caaaccattc gttctgttac ggctggatga tgcattgcgc601 gggctaggtg cgcttttcgc agttttcttc attattcaac tgatcggcca agtgcctgca661 gccctatggg tcatatatgg cgaggaccgt tttcagtgga acaccgcgac cgttggtttg 721 tcgctcgcgg cgtttggggc aacacatggg atcttccaag cgtttgttac cggcccgctt 781 tcaagccggc ttggagagcg gcgcacgctg ctgtttggca tggctgcgta tggcactggc 841 ttcgttcttc tggcttttgc cacgcaggga tggatggtgt tcccgattct gttgctgctt 901 gccgccgggg gtgttggcat gccggccttg caggcaatgc tctcaaacaa tgtcagcagt 961 aacaagcaag gggctttgca aggaacgcta acgagcctca ccaatctaag ctctatcgca 1021 ggaccgcttg gcttcacagc actctattct gccaccgccg gggcatggaa cggttgggtt 1081 tggattgtcg gcgcgatcct ctatttaata tgtctgccaa tactacgcag accattcgca 1141 aFasta格式:>gi|12054722|emb|Y19118.1| Salmonella typhimurium partial tetG gene for tetracycline resistance protein CTGCTGATCGTGGGTCTTGACGCCATGGGTCTCGGCCTCATCATGCCCGTCCTTCCGACGCTTCTGCGTG AGCTTGTGCCAGCAGAGCAGGTCGCTGGACACTATGGTGCCTTGCTGTCGCTCTATGCATTGATGCAGGT CGTCTTCGCGCCCATGCTTGGACAGCTTTCGGATTCTTACGGTCGGCGTCCGGTACTTCTGGCTTCTCTT GCAGGAGCCGCAGTCGATTACACGATTATGGCATCAGCGCCGGTCTTATGGGTGCTCTATATCGGCCGAC TCGTGTCCGGCGTCACGGGCGCAACCGGAGCTGTAGCAGCCTCAACCATTGCCGATTCGACGGGGGAAGG TTCTCGCGCACGCTGGTTCGGCTACATGGGGGCCTGTTATGGGGCGCGCATGATTGCCGGGCCAGCACTT TGTGGCATGCTCGGTGGTATCTCTGCTCATGCCCCGTTTATCGCCGCCGCCCTTCTCAACGGGTTCGCGT TCCTGCTTGCCTGCATTTTCCTCAAGGAGACTCATCACAGCCATGGCGGGACCCGAAAGCCGGTTCGCAT CAAACCATTCGTTCTGTTACGGCTGGATGATGCATTGCGCGGGCTAGGTGCGCTTTTCGCAGTTTTCTTC ATTATTCAACTGATCGGCCAAGTGCCTGCAGCCCTATGGGTCATATATGGCGAGGACCGTTTTCAGTGGA ACACCGCGACCGTTGGTTTGTCGCTCGCGGCGTTTGGGGCAACACATGGGATCTTCCAAGCGTTTGTTAC CGGCCCGCTTTCAAGCCGGCTTGGAGAGCGGCGCACGCTGCTGTTTGGCATGGCTGCGTATGGCACTGGC TTCGTTCTTCTGGCTTTTGCCACGCAGGGATGGATGGTGTTCCCGATTCTGTTGCTGCTTGCCGCCGGGG GTGTTGGCATGCCGGCCTTGCAGGCAATGCTCTCAAACAATGTCAGCAGTAACAAGCAAGGGGCTTTGCA AGGAACGCTAACGAGCCTCACCAATCTAAGCTCTATCGCAGGACCGCTTGGCTTCACAGCACTCTATTCT GCCACCGCCGGGGCATGGAACGGTTGGGTTTGGATTGTCGGCGCGATCCTCTATTTAATATGTCTGCCAA TACTACGCAGACCATTCGCAA相关信息:由GENBANK可以看出这是一条由1141个碱基构成的基因序列,这序列来自于鼠伤寒沙门氏菌的四环素抗性基因。