基于LSF+GPFS高性能运算解决方案

客户需求

Customer demand

中尺度气象预报模式(WRF、GRAPES等)和大气化学模式(如CMAQ)等都有非常大的计算量,且绝大多数为浮点计算。理论上预报精度提高一倍,其所需计算量将提高16倍。数值预报模式对计算的这一需求,必须利用并行计算。同时一般都采用有限差分格点模式并行计算,所以运行这些预报模式时,各个CPU之间的通讯量很大,模式对通讯的性能要求非常高。由于涉及大量的用户和大量的小文件读写,气象模式程序大都对整个系统的IOPS性能有较高要求,一般要求有分布式IO或者并行文件系统。从软件的处理流程上看,一般分为前处理、主模式和后处理,对集群智能任务调度、处理要求比较高。


解决方案
Solution

配置多个双路节点,浮点运算能力极强,适合于MPI分布式内存的计算。配置单向40Gb或56GB的高速Infiniband网络,满足所有节点计算交换需求,网络延时低。配置GPFS并行集群文件系统,用于边界区域会产生大量数据交换。配置LSF任务调度系统,用于任务可视化灵活调度。配置Platform一体化平台,包含集群管理、全面监控等强大功能。

方案效果
Scheme effect

1. 计算、存储、网络等部分配比合理,符合用户应用特点。系统计算性能强劲,计算资源丰富。

2. 分布式存储架构,提供充足的I/O聚合带宽,存储系统稳定可靠、具有很强的可扩展性。

3. 高速网络大幅度提升并行应用程序的计算效率。

4. 支持作业运行过程中对作业进行断点设置,并可从断点处恢复作业的运行。

5. 集群监控管理系统提供集群部署、监控、告警、管理、统计、报表、作业调度等丰富功能。

6. 完备的高性能计算基础软件环境,包括编译器、函数库、常用工具库、并行环境等,并针对系统进行优化,满足高性能计算程序的开发和运行需要。


1. 计算、存储、网络等部分配比合理,符合用户应用特点。系统计算性能强劲,计算资源丰富。

2. 分布式存储架构,提供充足的I/O聚合带宽,存储系统稳定可靠、具有很强的可扩展性。

3. 高速网络大幅度提升并行应用程序的计算效率。

4. 支持作业运行过程中对作业进行断点设置,并可从断点处恢复作业的运行。

5. 集群监控管理系统提供集群部署、监控、告警、管理、统计、报表、作业调度等丰富功能。

6. 完备的高性能计算基础软件环境,包括编译器、函数库、常用工具库、并行环境等,并针对系统进行优化,满足高性能计算程序的开发和运行需要。

Copyright © 2021 上海合联电子科技有限公司 All Rights Reserved 沪ICP备05001494号-3

Copyright © 2021 上海合联电子科技有限公司 All Rights Reserved 沪ICP备05001494号-3