并行计算技术介绍
加速任务处理的几种手段 1.多线程加速:充分利用处理器节点的多核CPU计算能力, 通过将处理任务的部分环节改写为多线程执行模式,进 而提高CPU利用率,达到加速目的。 • 适用场景:一般适用于业务语句中的循环级并行,循 环体中无信息交互。 • 典型实现技术:OPENMP编程模型。 • 实现步骤:分析算法,改写循环体为多线程模型。 2.多进程加速:充分利用集群环境下多处理器节点的计 算能力,通过将处理任务分解成相同任务不同输入的数 量堆积型并行处理环节,或不同功能同时执行的并行处 理环节,实现处理过程的加速。 适用场景:网格计算,多数据分集处理等 实现实现技术:基于MPI消息传输模式的多进程编程模型 实现步骤:分析业务,根据算法或输入集改写成多进程 处理模式,部署于集群环境执行
并行计算架构设计分析
几个概念
物理处理器:一个单核CPU。多核就对应着多个物理处理器 逻辑处理器:通过超线程技术奖一个物理处理器模拟成多个逻辑处理 器,进而提高物理处理器的利用率 并行计算:多处理器系统,通过操作系统采用并行调度方法,允许多 个线程或进程在多处理器上同时执行 分布式处理系统:某个处理任务分解到多个处理器上,系统通常为扁 平结构,有一个控制中心,同时具备多个处理单元,通过处理单元的 扩展提高系统的处理效率。任务分解一般分为两类:同类处理任务的 数量扩展;按不同功能进行分解得到的功能扩展;一般结合使用
3.作业并行调度 针对不同数据分集,并行执行相同的处理任务(服务),自动按照集群 负载情况动态将作业加载到最优计算节点上执行;常用于多输入的数据 预处理任务。 4.分布式处理加速:在两个或多个软件互相共享信息,这些软件既可以在 同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。 分布式计算比起其它算法具有以下几个优点: 稀有资源可以共享。 通过分布式计算可以在多台计算机上平衡计算负载。 可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平 衡负载是分布式计算的核心思想之一 适用场景:基于海量数据的数据挖掘与统计分析 典型实现技术:HADOOP的MapReduce分布式计算架构,并结合分布式存 储架构 实现步骤:部署分布式计算成多个计算任务,通过大量计算资源的并行执行 TIGA执行效率