当前位置：文档之家› 生物信息学名词解释(原创)

生物信息学名词解释(原创)

名词解释（笔者承认偷了点懒，只是把能在网上找到的都整合在一张上面了，此整理仅适合开卷考试）基因表达（gene expression):基因通过转录和翻译，产生蛋白质产物和直接转录RNA参与生物功能的过程。

基因调控：涉及基因的启动关闭、活性的增加或减弱，发生在转录阶段、转录后加工阶段和翻译阶段。

负调控（Negative control）：阻遏蛋白（repressor protein）结合在受控基因上时不表达，不结合时就表达的形式。

正调控（Positive control）：基因表达的活化物（ activators ）结合在受控基因上时，激活基因表达，不结合时就不表达的形式。

一次数据库：记录实验的结果和一些初步的解释。

二次数据库：对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。

空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

Consensus sequence：共有序列，指多种原核基因启动序列特定区域内，通常在转录起始点上游-10及-35区域存在一些相似序列。

FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

Similarity相似性：是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。

genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。

查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

PDB：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。

Prosite：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。

PIR：是一个集成了关于蛋白质功能预测数据的公共资源的数据库，其目的是支持基因组蛋白质研究。

SWLSS—MODE：是目前最著名的蛋白质三级结构预测服务器，建立在已知生物大分子结构基础上，利用同源建模的方法对未知序列的蛋白质三级结构进行预测。

E值：衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。

点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。

MEGA：是一款免费的构树软件，它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能，能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。

BioEdit：BioEdit是一个序列编辑器与分析工具软件。

功能包括：序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。

GSS：基因组勘测序列，是基因组DNA克隆的一次性部分测序得到的序列。

包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。

coiled coil：卷曲螺旋，是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。

卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。

基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。

31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。

超家族：进化上相关，功能可能不同的一类蛋白质。

33.模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。

GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。

41.折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。

TrEMBL：是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database)：是（NCBI）所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。

与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

SCOP数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB中的所有条目。

SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。

可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold）、超家族（super family）、家族（family）、单个PDB蛋白结构记录。

表谱（PSSM）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。

比较基因组学：是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。

其它位点为都是非简约性信息位点。

DDBJ：日本DNA数据库，主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，也接受其他国家呈递的序列。

4. BLAST：基本局部比对搜索工具的缩写，是一种序列类似性检索工具。

BLAST采用统计学几分系统，同时采用局部比对算法， BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLASTn：是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

BLASTp：是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

Clustsl X：是CLUSTAL多重序列比对程序的Windows版本，是用来对核酸与蛋白序列进行多序列比较的程序，也可以对来自不同物种的功能或结构相似的序列进行比对和聚类，通过重建系统发生树判断亲缘关系，并对序列在生物进化过程中的保守性进行估计。

SRS：序列查询系统，是EBI提供的多数据库查询工具之一。

有与Entrez类似的功能外，还提供了一系列的序列分析工具，可以直接进行在线序列分析处理。

Ab initio prediction：蛋白质三级结构预测方法—从头预测法，在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下，只能采用从头预测方法，即（直接）仅仅根据序列本身来预测其结构。

分子进化树：精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异，而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。

gene tree：基因树，表示一组基因或一组DNA顺序进化关系的系统发生树。

MP：最大简约法基于进化过程中所需核苷酸（或氨基酸）替代数目最少的假说，对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

heptad repeat：七肽重复区是典型的卷曲螺旋结构类型之一，由多个七肽单元连接而成的重复序列。

structure domain：结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。

PubMed：是一个免费的生物医学文摘数据库，提供部分论文的摘要及指向全文的链接。

作为 Entrez 资讯检索系统的一部分。

PSI-BLAST：位点特异性迭代比对。

e商务文档

生物信息学名词解释(原创)

相关文档推荐：