当前位置:文档之家› 5外文翻译1

5外文翻译1

本科毕业设计外文翻译(2010届)题目:面向对象数据库Xindice的应用系统学生姓名韩文杰指导教师王奔专业班级软件工程2008(2+2)2班所在学院计算机科学与技术学院提交日期2010年3月使用开源XML数据库Xindice构建鼻咽癌2D/MS库--Feng Li,Maoyu Li,Zhiqiang Xiao,Pengfei Zhang,Jianling Li and Zhuchu Chen地址:中国卫生部癌症蛋白组织学重点实验室中南大学湘雅医院中南大学癌症研究所Email:Feng Li-fengl@;Maoyu Li-maoyuli@;Zhiqiang Xiao-zqxiao2001@;Pengfei Zhang-jimszhang0421@;Jianling Li-jianlingli2001@;Zhuchu Chen*-tcbl@1.摘要1.1背景许多蛋白质组学的倡议要求所有信息要用统一的标准来集成。

这些信息来自于收集的样品和展示给公众的实验结果的数据。

这些不同格式和结构的数据的集成和转换对我们来说是一个巨大的挑战。

XML技术因为它的简单性和灵活性在处理这类问题时给我们呈现出一个希望。

鼻咽癌(NPC)是最常见的癌症之一,在南部中国和东南亚,这标志着鼻咽癌发病的地理和种族差异。

尽管有一些癌症蛋白质组数据库,现在仍没有鼻咽癌蛋白质组数据库。

1.2结果用人类蛋白质标记语言编辑器将原始实验数据原始实验数据捕获到一个XML文档,将XML文档导入原生XML数据库Xindice。

关于鼻咽癌蛋白质组的2D/MS库是由Apache,,PHP,Xindice创建的。

这个库提供了一种通过互联网访问数据库的方法。

在我们的网站上,同时两种方法(关键字查询,点击查询)来访问鼻咽癌蛋白质组学数据库的实体。

1.3结论我们2D/MS存储库可以用于共享的鼻咽癌蛋白质组学原始数据,这些数据来自于凝胶型的蛋白质实验。

用于构建用户自己的蛋白质存储库的数据库和PHP源代码可以在/上访问到。

2.背景人类和其他模型有机体基因组计划的完成提供了一系列的基础设施来允许我们对细胞发信号、规则、新陈代谢的动态过程有一个更好的了解。

尽管所有的细胞中都含有完整的基因组,但是在特定细胞中只有基因的一小部分被表达。

在不同的条件和同一器官的不同组织中,一个特定组的蛋白质被表达或翻译后修饰来执行细胞的特定功能。

术语蛋白质组是蛋白质和基因组和混合体,它指整个的蛋白质成份,连同所有在一个挑选的细胞中共有原子价修正蛋白质。

随着后基因组学的到来,功能性基因组学已经变成了生物研究的一个新焦点,当评定全功能性蛋白质时,蛋白质组已经成为一个非常有希望的领域。

为了了解不同蛋白质所扮演的角色和解剖蛋白质之间相互作用的网络,一个高渗透的方法学正在被应用在这个新出现的领域。

结果,通过高渗透的蛋白质组方法大量的实验数据产生。

这些高渗透的蛋白质组方法有大型双杂交系统,高全质量光谱技术,多维色谱仪。

同时,随着蛋白质组信息量的迅速增加,对有一个公共库蛋白质组库和在实验室之间交流原始蛋白质组的实验数据有着迫切需求。

原始实验数据通常是由不同的生成仪器,实验室和方法产生,因此仍难以直接交换原始蛋白质组数据。

最近,一个新的特殊的组织,名为PSI(蛋白质组学标准计划)成立于在美国华盛顿举办的人类蛋白质组组织会议上,定义数据表示社区标准会议蛋白质组学的数据比较方便,交流和核查。

由于在我们实验室产生的原始蛋白质组实验数据和在大多数蛋白质组学实验室使用的技术还是基于2D/MS系统,我们打算把精力集中在由2D/MS系统一般蛋白质组学格式产生的原始蛋白质组学数据的交换上。

目前,形成了一些与整个蛋白质组学标准相关的XML模型如PEDRo,HUP-ML和AGML。

在这些模型中,PEDRo,HUP-ML是两个用于处理蛋白质组学原始数据流行的模型。

PEDRo是由诺曼佩顿教授率领的一个小组开发,考虑到凝胶蛋白质组数据与其他的XML模式的许多方面,如mzXML,mzData和mzIdent,更具体地说应为质谱数据。

HUP-ML是另一个基于XML面向蛋白质组分析的格式,它是由Kamijo et al.在2002年的AOHUPO XML专题讨论会上提出的。

HUP-ML是建立在典型的2D/MS系统之上的,可以被大多数的实验室使用。

在这里,我们把HUP-ML editor作为数据采集的软件,把HUP-ML数据模型作为鼻咽癌蛋白质组库。

鼻咽癌在中国南部和东南亚是最常见的癌症之一,这表明鼻咽癌的发病具有明显的地域和种族差异。

公共蛋白质组库是研究复杂的癌症机制基础设施。

虽然有许多癌症蛋白质组数据库,但就我们所知一直没有鼻咽癌蛋白质组数据库。

在本文中,我们用HUP-ML编辑器来收集原始鼻咽癌蛋白质组学数据,包括实验结果和实验条件。

然后,将这些XML文件导入Xindice数据库,PHP是用来把来自Web客户端的查询请求传递给数据库管理系统,并查询结果以HTML格式返回给客户端。

PHP源代码可以从我们的网站/上下载以构建用户自己的蛋白质组库。

3.结果在鼻咽癌2D/MS库中鼻咽癌凝聚型蛋白质组实验数据的Xpath的查询结构如图3.1所示。

图3.1Xpath查询结果这个2D/MS库的结构如图3.2所示。

图3.22D/MS库的结构要检索一个标识点的精确信息,我们提供了两种选择来查询信息。

一种方式是通过文本输入来查询数据库,可以输入一个NCBI加入数字,蛋白质名称或别名,或者基因的名称。

另一种查询方法是点击2-DE凝胶图上的点击点。

这两种查询方法都是建立在Xpath查询之上。

这个Xpath查询结果是将返回一个XML文档。

为了显示一个可读的查询结果,在将结果输送给客户端浏览器之前XLST处理器的转换工作是必须的。

Sablotron XSLT处理器转变结果的一个例子如图3.3所示。

图3.3Sablotron处理器转化结果在右上方的框中,有返回结果的点用红色十字叉在二维凝胶图像中标出,同时查询点的蛋白质详细信息显示在右下角的框中。

另一种查询方法是直接点击二维凝胶图像中的一个点。

如果这个点在实验中已经被确定,详细的蛋白质信息将显示在右下角的框中。

这两种方法都允许用户进入NCBI数据库通过超链接访问蛋白质的相关功能的注释信息。

在我们的鼻咽癌蛋白质组学库中,肽质量指纹图中的每一个单一同位素峰的顶点都是用Mascot Distiller策略提取的,被保持为mgf文件。

所有的mgf文件都被转化成文本文件并且被输入到HUP-ML文档中。

当用户点击确定点的MS-MAP图上的超链接时,数据库管理系统就会查询该点,从ms_peak_list标签中抽取单一同位素峰到PHP上,然后PHP会被转化成模仿的肽质量指纹图。

通过这种方法,模拟的肽质量指纹图能够被每一个人分享,不受大量的质谱制造商定义的文件格式的限制。

图3.4展示了一个确定的蛋白谷胱甘肽转移由单一同位素峰列表生成的欧米茄1-1的肽质量指纹图。

图3.4欧米茄1-1的肽质量指纹图讨论目前有两种用于存储蛋白质组学实验数据的数据库管理系统,它们是关系数据库管理系统(RDMS)和XML数据库系统。

当前最流行的2D/MS数据库采用SWISS-2DPAGE或者免费的数据库。

SWISS-2DPAGE数据库是建立在瑞士生物信息研究所的Make2ddb软件基础之上的。

Make2ddb后端的数据库系统是PostgreSQL数据库管理系统。

虽然SWISS-2DPAGE数据库已经建立,某些重要实验信息和原始数据仍不能集合到数据库中,如蛋白质分离和识别的条件,实验样品的详细说明,原始质谱图等。

如果研究人员使用其他免费的关系数据库,他必须用很大的努力来设计、优化信息数据库。

关系数据库的优点是因为它的特定的设计结构和关系模型,关系数据库能够很容易地用来存储、管理和查询结构化的信息。

然而用HUP-ML模型集成的蛋白质组数据的复杂数据结构使我们用关系数据库构建蛋白质组库变得困难了。

此外,如果我们用关系数据库作为后端数据库,将蛋白质组数据映射到表中,这样的数据库管理系统强迫我们将数据分割成许多小段以满足第三范式的要求。

当一个查询能够使数据库管理系统将许多片段整合成原始数据时,片段就能够导致效率问题。

XML技术是互联网语言的下一代技术。

它具有强大的数据交换能力。

XML 技术特别适合展示生物数据和方法。

它是目前在许多领域的共同选择包括蛋白质组学领域。

因为XML具有高灵活性并且能够提供一个开发的框架来定义标准规范。

随着网络服务迅速增长,XML在数据交换和共享方面得到蓬勃发展,并且形成了两种基于XML的新数据库技术:原生XML数据库管理系统和XML数据库管理系统。

使用原生XML数据库系统,没有必要将特定的蛋白质组模式映射到关系数据库中。

Xindice是一个由Apache开发的开源原生XML数据库。

它是一个促进基于WEB工具和标准的建设的软件基础。

相比其他开放源码的XML数据库,例如eXist和xmldb,我们认为Xindice具有更好的稳定性,更好的兼容性和技术支持。

因此,我们决定采用原生XML数据库Xindice来存储、管理、查询原始鼻咽癌蛋白质组实验数据的集合。

PEDRoDB是另一个新的用来存储、搜索、传播实验蛋白质组数据的数据库存储系统。

它用Xindice存储XML格式的原始蛋白质组数据。

PEDRoDB是一个以原始数据采集软件Pedro为基础的数据库系统。

Pedro已近被开发出来用于编码实验数据并且生成基于XML的PEML(蛋白质组学实验标记语言)文件。

PEML以Pedro模型为基础用于本地存储或者提交一个数据库。

不像基于Make2ddb,更多强调凝聚注释,2D/MS数据库,PEDRoDB数据库被设计用来提供更多的信息,允许详细地比较获取结果的方式。

然而,PEDRoDB不能用于下载,至少在我们的写作方面。

HUP-ML文档采用平面文件结构,在某种意义上它可以被视为一个数据库或关系数据库中的一个表。

XML文件可以直接投入相同的目录中,可以被文件管理系统处理。

但是,这种方法的功能还不够,因为它不能提供一个数据库的优点,如事件安全救助机制,并行控制和高效率的索引和查询。

因此,通过部署NXD的HUP-ML文件,整个系统能够更有效和安全。

Xindice是一个开源的原生XML数据库,具有XPath的查询效率,对XUpdate 的支持,与现有的XML开发工具的紧密集成的特点。

然而,Xindice受到公共原生XML数据库的局限。

因为与关系数据库相比它的少量存在,并且没有太多NXD 的支持技术和应用可用。

PEDRo和HUP-ML都代表了使用XML技术来交换原始蛋白质组数据的当前成果。

目前使用已经存在的成果如PEDRo和HUP-ML作为系统设计的起点而不是全新设计是一个不错的选择。

相关主题