组学研究结构基因组学是继人类基因组之后又一个国际性大科学热点,主要目的是试图在生物体的整体水平上(如全基因组、全细胞或完整的生物体)测定出(以实验为主、包括理论预测)全部蛋白质蛋白质-蛋白质、蛋白质-核酸、蛋白质-多糖、蛋白质-蛋白质-核酸-多糖、蛋白质与其他生物分子复合体的精细三维结构,以获得一幅完整的、能够在细胞中定位以及在各种生物学代谢途径、生理途径、信号传导途径中全部蛋白质在原子水平的三维结构全息图。
在此基础上,使人们有可能在基因组学、蛋白质组学、分子细胞生物学以致生物体整体水平上理解生命的原理。
对疾病机理的阐明、对疾病的防治有重要应用意义。
随着测序的完成,功能基因组学研究成为研究的主流,它从基因组信息与外界环境相互作用的高度,阐明基因组的功能。
功能基因组学的研究内容:人类基因组DNA 序列变异性研究、基因组表达调控的研究、模式生物体的研究和生物信息学的研究等。
(1)基因组表达及调控的研究。
在全细胞的水平,识别所有基因组表达产物mRNA和蛋白质,以及两者的相互作用,阐明基因组表达在发育过程和不同环境压力下的时、空的整体调控网络。
(2)人类基因信息的识别和鉴定。
要提取基因组功能信息,识别和鉴定基因序列是必不可少的基础工作。
基因识别需采用生物信息学、计算生物学技术和生物学实验手段,并将理论方法和实验结合起来。
基于理论的方法主要从已经掌握的大量核酸序列数据入手,发展序列比较、基因组比较及基因预测理论方法。
识别基因的生物学手段主要基于以下的原理和思路:根据可表达序列标签(STS);对染色体特异性cosmid进行直接的cDNA选择;根据CpG岛;差异显示及相关原理;外显子捕获及相关原理;基因芯片技术;基因组扫描;突变检测体系,等等。
(3)基因功能信息的提取和鉴定。
包括:人类基因突变体的系统鉴定;基因表达谱的绘制;“基因改变-功能改变”的鉴定;蛋白质水平、修饰状态和相互作用的检测。
(4)在测序和基因多样性分析。
人类基因组计划得到的基因组序列虽然具有代表性,但是每个人的基因组并非完全一样,基因组序列存在着差异。
基因组的差异反映在表型上就形成个体的差异,如黑人与白人的差异,高个与矮个的差异,健康人与遗传病人的差异,等等。
出现最多基因多态性就是单核苷酸多态性(SNPs)。
(5)比较基因组学。
将人类基因组与模式生物基因组进行比较,这一方面有助于根据同源性方法分析人类基因的功能,另一方面有助于发现人类和其他生物的本质差异,探索遗传语言的奥秘。
代谢组学是继基因组学和蛋白质组学之后新近发展起来的一门学科,是系统生物学的重要组成部分。
之后得到迅速发展并渗透到多项领域,比如疾病诊断、医药研制开发、营养食品科学、毒理学、环境学,植物学等与人类健康护理密切相关的领域。
基因组学和蛋白质组学分别从基因和蛋白质层面探寻生命的活动,而实际上细胞内许多生命活动是发生在代谢物层面的,如细胞信号释放(cell signaling),能量传递,细胞间通信等都是受代谢物调控的。
代谢组学正是研究代谢组(metabolome)——在某一时刻细胞内所有代谢物的集合——的一门学科。
基因与蛋白质的表达紧密相连,而代谢物则更多地反映了细胞所处的环境,这又与细胞的营养状态,药物和环境污染物的作用,以及其它外界因素的影响密切相关。
代谢组学的研究方法与蛋白质组学的方法类似,通常有两种方法。
一种方法称作代谢物指纹分析(metabolomic fingerprinting),采用液相色谱-质谱联用(LC-MS)的方法,比较不同血样中各自的代谢产物以确定其中所有的代谢产物。
从本质上来说,代谢指纹分析涉及比较不同个体中代谢产物的质谱峰,最终了解不同化合物的结构,建立一套完备的识别这些不同化合物特征的分析方法。
另一种方法是代谢轮廓分析(metabolomic profiling),研究人员假定了一条特定的代谢途径,并对此进行更深入的研究。
蛋白质组(Proteome)一词,源于蛋白质(protein)与基因组(genome)两个词的组合,意指"一种基因组所表达的全套蛋白质",即包括一种细胞乃至一种生物所表达的全部蛋白质。
蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识,这个概念最早是由Marc Wilkins 在1994年提出的。
研究技术可以说,蛋白质组学的发展既是技术所推动的也是受技术限制的。
蛋白质组学研究成功与否,很大程度上取决于其技术方法水平的高低。
蛋白质研究技术远比基因技术复杂和困难。
不仅氨基酸残基种类远多于核苷酸残基(20/ 4), 而且蛋白质有着复杂的翻译后修饰,如磷酸化和糖基化等,给分离和分析蛋白质带来很多困难。
此外,通过表达载体进行蛋白质的体外扩增和纯化也并非易事,从而难以制备大量的蛋白质。
蛋白质组学的兴起对技术有了新的需求和挑战。
蛋白质组的研究实质上是在细胞水平上对蛋白质进行大规模的平行分离和分析,往往要同时处理成千上万种蛋白质。
因此,发展高通量、高灵敏度、高准确性的研究技术平台是现在乃至相当一段时间内蛋白质组学研究中的主要任务。
当前在国际蛋白质组研究技术平台的技术基础和发展趋势有以下几个方面:折叠样品制备通常可采用细胞或组织中的全蛋白质组分进行蛋白质组分析。
也可以进行样品预分级,即采用各种方法将细胞或组织中的全体蛋白质分成几部分,分别进行蛋白质组研究。
样品预分级的主要方法包括根据蛋白质溶解性和蛋白质在细胞中不同的细胞器定位进行分级,如专门分离出细胞核、线粒体或高尔基体等细胞器的蛋白质成分。
样品预分级不仅可以提高低丰度蛋白质的上样量和检测,还可以针对某一细胞器的蛋白质组进行研究。
对临床组织样本进行研究,寻找疾病标记,是蛋白质组研究的重要方向之一。
但临床样本都是各种细胞或组织混杂,而且状态不一。
如肿瘤组织中,发生癌变的往往是上皮类细胞,而这类细胞在肿瘤中总是与血管、基质细胞等混杂。
所以,常规采用的癌和癌旁组织或肿瘤与正常组织进行差异比较,实际上是多种细胞甚至组织蛋白质组混合物的比较。
而蛋白质组研究需要的通常是单一的细胞类型。
最近在组织水平上的蛋白质组样品制备方面也有新的进展,如采用激光捕获微解剖(Laser Capture Microdissection, LCM) 方法分离癌变上皮类细胞。
折叠样品分离和分析利用蛋白质的等电点和分子量通过双向凝胶电泳的方法将各种蛋白质区分开来是一种很有效的手段。
它在蛋白质组分离技术中起到了关键作用。
如何提高双向凝胶电泳的分离容量、灵敏度和分辨率以及对蛋白质差异表达的准确检测是目前双向凝胶电泳技术发展的关键问题。
国外的主要趋势有第一维电泳采用窄pH梯度胶分离以及开发与双向凝胶电泳相结合的高灵敏度蛋白质染色技术,如新型的荧光染色技术。
质谱技术是目前蛋白质组研究中发展最快,也最具活力和潜力的技术。
它通过测定蛋白质的质量来判别蛋白质的种类。
当前蛋白质组研究的核心技术就是双向凝胶电泳-质谱技术,即通过双向凝胶电泳将蛋白质分离,然后利用质谱对蛋白质逐一进行鉴定。
对于蛋白质鉴定而言,高通量、高灵敏度和高精度是三个关键指标。
一般的质谱技术难以将三者合一,而最近发展的质谱技术可以同时达到以上三个要求,从而实现对蛋白质准确和大规模的鉴定。
折叠蛋白质组研究的新技术做过双向凝胶电泳的人一定会抱怨它的繁琐、不稳定和低灵敏度等缺点。
发展可替代或补充双向凝胶电泳的新方法已成为蛋白质组研究技术最主要的目标。
目前,二维色谱(2D-LC)、二维毛细管电泳(2D-CE)、液相色谱-毛细管电泳(LC-CE) 等新型分离技术都有补充和取代双向凝胶电泳之势。
另一种策略则是以质谱技术为核心,开发质谱鸟枪法(Shot-gun)、毛细管电泳-质谱联用(CE-MS)等新策略直接鉴定全蛋白质组混合酶解产物。
随着对大规模蛋白质相互作用研究的重视,发展高通量和高精度的蛋白质相互作用检测技术也被科学家所关注。
此外,蛋白质芯片的发展也十分迅速,并已经在临床诊断中得到应用。
蛋白质组数据库是蛋白质组研究水平的标志和基础。
瑞士的SWISS-PROT拥有目前世界上最大,种类最多的蛋白质组数据库。
丹麦、英国、美国等也都建立了各具特色的蛋白质组数据库。
生物信息学的发展已给蛋白质组研究提供了更方便有效的计算机分析软件;特别值得注意的是蛋白质质谱鉴定软件和算法发展迅速,如SWISS-PROT、Rockefeller大学、UCSF等都有自主的搜索软件和数据管理系统。
最近发展的质谱数据直接搜寻基因组数据库使得质谱数据可直接进行基因注释、判断复杂的拼接方式。
随着基因组学的迅速推进,会给蛋白质组研究提供更多更全的数据库。
另外,对肽序列标记的从头测序软件也十分引人注目。
转录组学转录组学(transcriptomics),是一门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科。
简而言之,转录组学是从RNA水平研究基因表达的情况。
转录组即一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。
以DNA为模板合成RNA的转录过程是基因表达的第一步,也是基因表达调控的关键环节。
所谓基因表达,是指基因携带的遗传信息转变为可辨别的表型的整个过程。
与基因组不同的是,转录组的定义中包含了时间和空间的限定。
同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。
通过测序技术揭示造成差异的情况,已是目前最常用的手段。
人类基因组包含有30亿个碱基对,其中大约只有5万个基因转录成mRNA分子,转录后的mRNA能被翻译生成蛋白质的也只占整个转录组的40%左右。
通常,同一种组织表达几乎相同的一套基因以区别于其他组织,如:脑组织或心肌组织等分别只表达全部基因中不同的30%而显示出组织的特异性。
转录组谱可以提供什么条件下什么基因表达的信息,并据此推断相应未知基因的功能,揭示特定调节基因的作用机制。
通过这种基于基因表达谱的分子标签,不仅可以辨别细胞的表型归属,还可以用于疾病的诊断。
例如:阿尔茨海默病(Alzhe imer′s diseases, AD)中,出现神经原纤维缠结的大脑神经细胞基因表达谱就有别于正常神经元,当病理形态学尚未出现纤维缠结时,这种表达谱的差异即可以作为分子标志直接对该病进行诊断。
同样对那些临床表现不明显或者缺乏诊断金标准的疾病也具有诊断意义,如自闭症。
目前对自闭症的诊断要靠长达十多个小时的临床评估才能做出判断。
基础研究证实自闭症不是由单一基因引起,而很可能是由一组不稳定的基因造成的一种多基因病变,通过比对正常人群和患者的转录组差异,筛选出与疾病相关的具有诊断意义的特异性表达差异,一旦这种特异的差异表达谱被建立,就可以用于自闭症的诊断,以便能更早地,甚至可以在出现自闭症临床表现之前就对疾病进行诊断,并及早开始干预治疗。