1、CAE-CFD应用与解决方案,CAE仿真对高性能计算的需求,计算机辅助工程(CAE)与高性能计算 更快的速度 更高的精度 更大的规模 问题如何选择提供最佳应用性能的硬件? CAE软件众多,对硬件的需求不一 硬件更新速度迅速:处理器、互联方式、体系结构 曙光公司与MSC、ANSYS、ESI等领先的CAE软件厂商合作,为用户提供最佳的解决方案!,1.1 CAE软件的不同需求,对于Ansys、Nastran以及Abaqus等应用程序 并行度不高,扩展性一般小于16CPU 单个作业对内存的要求很大 单个作业对I/O的空间和性能要求很高 以ANSYS为例 SPARSE-DSPARSE 10 GB/MDO
2、F(in-core) 10 GB/MDOF I/O PCG-DPCG 1 GB/MDOF without MSAVE 0.5 GB/MDOF I/O,虚拟内存(或swap)严重影响速度 内存的存取速度是硬盘的几十几百倍! 计算主进程比从进程需要更大内存 主进程担负更多 (数据管理、域划分等) 主进程需要持续的高性能I/O 减少I/O对CPU的占用 避免共享文件夹/NFS 并行I/O系统(Raid 0),对于Fluent、CFX、LS-Dyna等程序 并行效果好 能够在集群环境下并行到超过128个cpu 以双路服务器性价比最高 对内存的需求不强烈 通常1 个cpu core配置1GB 内存即可满
3、足需要。 对本地交换硬盘性能要求不高 一般采用SCSI/SATA硬盘即可 采用高速互联设备可以大幅度提高性能 以Fluent 为例,8个双路计算节点时采用Infiniband 互联设备的性能会比千兆以太网好50%以上。 Linux 操作系统比Unix 操作系统更加广泛采用,可根据需要选择Windows,对于Feko等电磁场程序 采用PO/UTD方法,并行效果很好,能够在集群环境下并行到超过128个cpu 采用MoM/FMM方法,并行扩展性不高,小于16cpu 对内存和I/O的要求比隐式有限元程序还要高得多,CAE软件可扩展性,隐式结构力学 MSC.NASTRAN MARC ANSYS ABAQ
4、US/Standard 显式结构力学 LS-DYNA AutoDyn Dytran ABAQUS/Explicit 计算流体力学 Fluent STAR-CD/HPC PowerFLOW CFX CFD-Fastran,计算电磁学 Feko 矩量法/FMM 128cpu 声学分析 sysnoise,处理器的选择 AMD Opteron & Intel Xeon 软件兼容性好,管理方便,成本低,性能较高 IBM Power & Intel 安腾 性能较高但价格昂贵,软件兼容度不高 发展趋势 双核、四核、多核 X86和RISC的融合 运算加速技术等,1.2 哪些硬件可供选择,互联方式的选择 千兆以
5、太网,带宽小(理论值125MB/s),延迟大35-45 s ; Myrinet:MPI乒乓测试带宽:230 MB/s,MPI短消息延迟:7 s ; Infiniband;MPI乒乓测试带宽:850 MB/s,MPI短消息延迟: 7 s ;,体系结构的选择,共享内存结构 内存支持统一编址 处理器之间通过高速总线连接 OpenMP支持 内部通信能力强 例子 曙光A950 IBM P575,集群结构 内存无法统一编址 计算单元通过网络相连 MPI支持 内部通信能力较弱 例子 曙光TC4000 IBM 1350,SMP or 集群?,SMP服务器适用的地方 基于OpenMP/多线程 需要大量I/O操作
6、 Nastran、Ansys、Abaqus、Sysnoise 集群服务器适用的地方 基于多进程 扩展性较好 需要分布式任务 Fluent、CFX、 Ls-Dyna、 FEKO,SMP集群解决方案面临的问题,传统方式,RISC SMP服务器CISC X86集群,RISC SMP服务器价格较为昂贵,1,最典型的异构平台特征,2,无法实现统一调度,3,分立存储方式,4,?,2.曙光CAE高性能计算平台,完全基于x86-64处理器的平台 SMP节点和Cluster节点之间可以实现最大限度的软硬件兼容性 采用Infiniband网络进行所有节点之间的高速连接 DCAS/DCJM可对系统软硬件资源进行完善
7、的管理 SKVM可对系统进行方便的操作、管理和监控,2.曙光CAE高性能计算平台,方案特点1,一体化:完全基于x86-64平台,整合SMP小型机、刀片集群、SAN存储以及作业管理软件,方案特点2,高性能 每台SMP服务器天阔A950提供32处理器内核和256GB以上内存,32*4*2.0G=2560亿次 每台TC2600刀片机箱提供80个处理器内核和64*10GB以上内存,80*4*2.0G=6400亿次 10/20Gbps高速Infiniband网络大幅度提升并行计算性能 全4Gb光纤存储网络,方案特点3,高可靠 管理、IO节点冗余配置 网络交换机和光纤交换冗余配置 刀片服务器采用全冗余设计
8、 电源 风扇 管理模块 交换模块,方案特点4,易管理 SMP节点和Cluster节点之间可以实现最大限度的软硬件兼容性,降低了管理员的工作难度 DCAS/DCJM可对系统软硬件资源进行完善的管理 SKVM可对系统进行方便的操作,举例:内存带宽比较(实测) 数据访问率,内存带宽比较 (数据流),0,5000,10000,15000,20000,带宽,(MB/s),2路至强处理器 5160 (4,线程),6185,6191,5760,5865,2路 AMD皓龙处理器,Model 2220 SE (4 线程),13480,13428,13179,13296,4路 AMD皓龙处理器,Model 222
9、0 SE (8 线程),18057,18018,18244,18271,Copy,Scale,Add,Triad,内存带宽是每秒钟处理器读取或存入内存子系统的数据量,原因在于前端总线瓶颈,越高越好,英特尔带宽较低,AMD 集成的内存控制器可以提供移动大量的应用数据所需的高内存带宽,AMD 皓龙处理器 提供的带宽比2路处理器带宽高 124%,计算密集型应用基准测试 -流体力学性能 Fluent性能测试,计算密集型应用基准测试 -流体力学性能 Fluent加速比测试,计算密集型应用基准测试 -LSDYNA性能,计算密集型应用基准测试 -LSDyna机群性能,高速Infiniband网络,Infin
10、iBand is the only growing high speed interconnect 105% growth from June 2006 173% growth from Nov 2005 Clusters continue to dominate with 72.2% of the Top500 list,Growth rate from June 06 to Nov 06 InfiniBand: +105% Myrinet: -10% Quadrics: 0% GigE: -16%,InfiniBand Myrinet Quadrics GigE,1.5 to 2X Faster Run Times with InfiniBand,LS-Dyna,Small-car rigid pole (WPI rp_lsd93),SMP小型机服务器A950,16*16/1024MHz HT,GbE,GbE,Intel 82541PI,VGA,A950r-F 系统架构,80Gb/s,Quad Core Ready,