当前位置:文档之家› 高性能计算在生命科学中的应用

高性能计算在生命科学中的应用

高性能计算在生命科学中的应用目录1.1 高性能计算的发展现状 (3)1.1.1 高性能计算概述 (3)1.1.2 高性能计算的应用需求 (3)1.1.3 国外高性能计算发展现状 (4)1.1.4 国内高性能计算发展现状 (5)1.1.5 高性能计算机关键技术发展现状 (7)1.2 高性能计算在生命科学中的应用 (13)1.2.1 基因测序数据处理 (13)1.2.2 蛋白质结构研究 (34)1.2.3 计算机辅助药物设计 (50)1.1高性能计算的发展现状1.1.1高性能计算概述高性能计算(High Performance Computing,简称HPC)是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(High Performance Computer),满足科学计算、工程计算、海量数据处理等需要。

自从1946年设计用于导弹弹道计算的世界上第一台现代计算机诞生开始,计算技术应用领域不断扩大,各应用领域对计算机的处理能力需求越来越高,这也促使了高性能计算机和高性能计算技术不断向前发展。

随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求也迅猛增长。

1.1.2高性能计算的应用需求应用需求是高性能计算技术发展的根本动力。

传统的高性能计算应用领域包括:量子化学、分子模拟、气象预报、天气研究、油气勘探、流体力学、结构力学、核反应等。

随着经济发展和社会进步,科学研究、经济建设、国防安全等领域对高性能计算设施及环境提出了越来越高的需求,不仅高性能计算的应用需求急剧增大,而且应用范围从传统领域不断扩大到资源环境、航空航天、新材料、新能源、医疗卫生、金融、互联网、文化产业等经济和社会发展的众多领域。

当前,世界和中国面临诸多重大挑战性问题。

比如,全球气候出现快速增温的事实使“应对气候变化”成为各国政治、经济和社会发展的重大课题,为了进一步消减“温室效应”和减少碳排放,实现可持续发展的低碳经济,新材料的发现、设计与应用迫在眉睫;随着化石能源的日益枯竭和环境的日趋恶化,新能源的开发势在必行;随着科技的发展,人类迈向太空的脚步逐渐加快,空间资源的争夺和战略性部署竟然愈发激烈,航空航天领域作为此项重大科研技术活动的基础支撑,投入将持续扩大;为了攻克重大疾病、进一步提高人口健康质量,生命科学与新药制造已成为技术发展和经济投入的重要增长点;随着互联网技术不断发展,借助海量数据与高性能计算的力量使得人工智能研究不断取得新的突破,各大互联网企业对高性能计算的投入将持续增加;在国际竞争的大环境下,基础科研实力是高新技术发展的重要源泉,是未来科学和技术发展的内在动力,也是实现国家经济、社会和环境可持续性发展的重要途径,基础科学研究的投入也将持续增长。

解决上述关系国家战略和国计民生的重大挑战性问题都离不开高性能计算的强力支撑,可以预见在战略层面,各国对高性能计算的投入会持续增长,而中国将更加发力;在技术层面上,高性能计算的应用范围将越来越广,反过来应用需求也将催生高性能计算新技术的诞生与发展。

图:全球HPC TOP500统计数据显示高性能计算能力成倍增长1.1.3国外高性能计算发展现状高性能计算作为国家实力的重要体现,是一个国家最尖端的信息技术综合体。

发达国家政府(美日欧)普遍将高性能计算作为国家战略,给予高度重视并进行持续投入。

美国是世界上最重视高性能计算、投入最多、受益最大的国家。

近数十年来,美国政府持续实施了SCP(战略计算机计划)、HPCC(高性能计算和通信)、ASCI(加速战略计算)、ASC(先进模拟和计算)、HPCS(高生产率计算机)等多个国家计划,从而确保了美国在高性能计算领域长期处于领先地位。

2015年7月,美国政府提出了建立“国家战略计算项目”(NSCI),目的是创建美国高性能计算的研发地位,研制世界上第一台百亿亿次计算系统,此举的目标就是夺回2013年以来被中国夺走的计算速度头名的宝座。

2015年6月统计的全球性能最高的500台高性能计算机有233台安装在美国,其中性能最高的10台计算机中有5台部署于美国。

美国在高性能计算领域的领先优势十分明显,为美国在科技创新和经济发展方面处于世界领先地位做出了重大贡献。

当前,美国政府仍在继续加强其在高性能计算领域的研发投入。

正在实施的UHPC(普适高性能计算)计划,目标是研究革命性的设计方法来满足不断增长的国防应用对高性能计算的需求,包括开发超高并发性的高性能计算机、有效提升系统能效比、简化并行应用设计方法和提升应用的容错能力等,为实现百亿亿次(ExaFlops)计算奠定基础。

日本一直以来位列高性能计算大国,与美国类似,日本政府非常重视高性能计算技术,不断加强其在高性能计算领域的研发投入。

早在1990年,日本NEC公司研制的SX-3/44R系统就成为当时全球速度最快的高性能计算机。

之后的1993年,Fujitsu公司开发的“数值风洞”系统,以及2004年NEC的“地球模拟器”再次位列全球第一。

在2015年6月统计的全球TOP 500高性能计算机中,日本占据40席,其中Fujitsu公司研制的“K计算机”位列世界第四,“K计算机”将落户日本理化学研究所(RIKEN),服务于物理、化学、生物、医学、材料、能源等领域科学研究。

此外,日本正在进行Exascale Supercomputer Project(E 级高性能计算)项目,该项目目标是建设E级的高性能计算与软件系统的来替换现有的“K 计算机”,该系统将服务于未来日本科学技术研究如药物设计、地震影响研究等。

欧洲也一直是高性能计算的活跃区域。

2002年,7个欧洲国家的11个高性能计算中心就联合发起DEISA项目,旨在建立泛欧洲的高性能计算基础设施。

在2015年6月统计的全球TOP 500高性能计算机中,欧洲占据了28%的席位。

面向百亿亿次(ExaFlops)计算需求,欧洲提出了EESI和MareIncognito超算计划,主要从并行编程模型和和应用算法方面突破百亿亿次级计算的关键技术,包括编程模型、负载均衡技术、微处理器/结点技术、性能分析工具、互连技术和高性能应用等。

1.1.4国内高性能计算发展现状“九五”以来,在国家及相关政府的持续支持和IT企业的积极参与下,我国高性能计算机有了长足的发展,研制队伍不断发展和壮大,主要的研制单位有:国家并行计算机工程技术研究中心、中科院计算技术研究所国家智能中心、国防科技大学计算机学院、曙光公司等,是数十年积聚起来的我国高性能计算机技术研发的中坚力量。

“十一五”期间,在国家863计划“高效能计算机及网格服务环境”重大项目的支持下,我国先后研制成功若干台百万亿次和千万亿次超级计算机系统。

2008年,联想公司和曙光公司分别研制成功“深腾7000”和“曙光5000”百万亿次计算机;2009年,国防科技大学研制成功“天河一号”千万亿次计算机,使我国成为继美国之后世界上第二个研制成功千万亿次计算机的国家;2010年6月,曙光公司研制成功“星云”千万亿次计算机,性能列世界TOP500第二位。

2010年11月,升级后的“天河-1A”系统创造了超级计算机全球排名第一的最好成绩。

基于自主CPU芯片研制超级计算机也取得了重大突破,神威蓝光于2010年底成为第一个全部采用国产CPU实现的千万亿次超级计算机。

进入“十二五”以来,我国的超级计算机研制继续发展,天河2号连续四次位居TOP500第一名。

预计到“十二五”末,我国还将推出2套峰值性能超过10亿亿次(100PFLOPS)的超级计算机系统,有望继续在TOP500排行榜中名列前茅。

在2013年国务院发布的《国家重大科技基础设施建设中长期规划(2012-2030年)》中,多个基础设施的建设都离不开高性能计算系统如海底科学观测网、转化医学研究设施。

其中,地球系统数值模拟器通过超级计算及存储专用系统的建设,并结合超级模拟支撑与管理软件系统、地球各层圈过程模拟软件系统等来实现模拟地球系统圈层变化和长期气候变化,精细描述和预测地球物理化学及生物过程,提高我国地球系统模拟的整体能力和重大自然灾害预测预警、气候变化预估的研究水平。

图:TOP500系统国家分布历史统计我国在高性能计算机系统相关的基础性支撑技术方面也有了很大进步。

在处理器方面,国内自主研制的“龙芯”、“神威”、“飞腾”等系列的多核处理器方面已有所突破,相关的生态环境正在逐步完善;在异构协同与并行优化方面,国内在CPU/GPU混合结构的应用研究,比如生命科学领域的基因比对、分子动力学、电镜数据处理石油勘探领域的电子断层三维重构、叠前时间偏移、深度学习等方面均取得突破。

在系统软件及环境方面,国内在大规模异构系统的管理和监控、大规模系统的快速部署以及高效系统虚拟化等关键技术上也取得了很大进展。

“十一五”期间,在国家863计划“高效能计算机及网格服务环境”重大项目的支持下,成功开发具有自主知识产权的中国国家网格软件GOS(Grid Operating System),突破了广域资源共享和协同工作的关键技术,其功能和性能已达到并超越国际同类软件水平。

此外,863计划还先后重点支持了化学、天文、气象、生物医药、流体、激光聚变、大飞机、石油勘探地震成像等领域的高性能计算应用,形成了若干可利用上千以上的处理器核进行计算模拟的应用实例。

1.1.5高性能计算机关键技术发展现状1.1.5.1体系架构作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了几十年的发展历程。

先后出现了向量机、多处理器并行向量机、MPP 大规模并行处理机、SMP对称多处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等多种主体的体系架构,并分别在不同的时期占据着应用的主流。

其中,计算机集群(简称集群、Cluster)是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。

在某种意义上,他们可以被看作是一台计算机。

集群系统中的单个计算机通常称为节点,通过内部网络连接。

高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能力。

比较流行的高性能计算集群采用Linux操作系统和其它一些标准软件来完成并行运算,这一集群配置通常被称为Beowulf集群。

这类集群通常运行特定的程序以发挥高性能计算集群的并行能力,这类程序一般使用特定的运行库,比如MPI等。

相比于MPP等一些专有高性能计算系统,集群系统具有明显的优势,包括:◆集群的标准化程度高高性能计算集群一般都是采用工业标准的硬件和软件系统,比如采用标准的x86架构处理器;工业标准的互联网络,比如InfiniBand、万兆网络等;通用的Linux操作系统;通用的并行编程标准和模型;通用的作业分发调度系统等。

相关主题