超级计算机主机配置文件是确保系统高效运行的关键,通常涉及硬件资源管理、并行计算优化、网络配置及安全策略等多维度设置。以下为核心配置要点及扩展说明:
1. 硬件资源配置
- CPU与内存分配:通过`slurm.conf`或`pbs.conf`定义计算节点资源池,需设置`NodeName`、`CPUs`、`RealMemory`参数,支持NUMA绑定时需配置`ThreadsPerCore`与`Socket`拓扑。
- GPU加速:CUDA环境需在`cuda.conf`中指定`MIG`分区策略,NVIDIA驱动版本需与`CUDA_VISIBLE_DEVICES`变量匹配。AMD GPU需配置ROCm栈的`HSA_OVERRIDE_GFX_VERSION`。
2. 并行计算框架
- MPI参数优化:在`mpi.conf`中调整`OMPI_MCA_btl`网络传输模块,针对Infiniband网络设置`openib`参数,如`mca_btl_openib_allow_ib=true`。`MPICH`需配置`HYDRA_HOST_FILE`以指定节点列表。
- OpenMP线程控制:通过`OMP_NUM_THREADS`与`OMP_PLACES`实现线程绑核,避免跨Socket调度延迟。
3. 存储系统配置
- Lustre/GPFS优化:`luster.conf`中设置`stripe_count`与`stripe_size`(建议1MB-4MB),客户端挂载参数需启用`flock`与`noatime`。针对小文件密集型任务可启用`mdt`缓存。
- BeeGFS分层存储:配置`beegfs-meta.conf`中`storageTier`定义SSD/HDD分层策略,`tuneTargetChooser`算法选择`roundrobin`或`randomized`。
4. 高速网络调优
- Infiniband参数:`opensm.conf`中调整`subnet_timeout`与`guid_routing`,MLNX_OFED驱动需设置`mtu=4096`。RDMA协议需在`sysctl.conf`中启用`vm.swappiness=0`。
- 以太网RoCEv2:通过`dcb`模块配置PFC流控,`mlnx_qos`工具设定优先队列映射TC。
5. 作业调度系统
- Slurm高级配置:`slurm.conf`中启用`PreemptType=preempt/partition_prio`实现多队列抢占,`GresTypes`定义异构资源类型。`cgroup.conf`需配置`ConstrainDevices=yes`。
- 故障恢复策略:`slurmdbd.conf`设置`AccountingStorageTRES`记录GPU/FPGA用量,`JobRequeue=1`支持自动重试。
6. 安全与监控
- Kerberos认证:`krb5.conf`配置`default_realm`与`kdc`服务器地址,SSH需启用`GSSAPIAuthentication`。
- Prometheus监控:`node_exporter`添加`--collector.ib`参数采集Infiniband计数器,`Grafana`面板需集成`dcgm`的GPU温度/功耗数据。
7. 节能与散热
- DVFS调控:`cpufreq.conf`设置`scaling_governor=performance`,Intel处理器通过`ppd`工具调整`uncore频率`。
- Liquid Cooling控制:在`ipmi.conf`中定义`CoolingZone`阈值,联动`pdsh`实现节点群组温控。
扩展知识:最新Frontier超算采用Cray Slingshot-11网络,其配置文件需特别设置`libfabric`的`rxm`协议栈参数,并启用SHARP聚合通信加速。另需注意国产申威处理器需在`sw.conf`中加载特定SIMD指令集优化库。
查看详情
查看详情