高性能计算机的硬件已经进入千万亿次计算时代,但是,大量重要的科学应用程序尚未扩展到相应的计算平台。并行程序可扩展分析技术能够帮助应用开发人员定位并行程序性能瓶颈,改进程序的可扩展性。然而,随着系统规模的逐渐增大,现有可扩展分析方法产生的性能数据已经远超出当前的I/O处理能力,使其无法帮助程序应用到拥有数十万个核的高性能计算平台,这较大地限制了高性能计算领域的发展。针对上述问题,本课题研究工作包括:首先,研究大规模并行程序进程间计算和通信模式的相似性,提出基于通信类型序列和函数调用图的轻量级方式对进程分组,选取代表进程进行性能分析;其次,提出静动态结合的大规模并行程序通信Traces压缩算法,改进现有压缩技术完全动态时猜测通信结构较高的处理开销;最后,提出基于虚拟重叠网络和进程间删冗的在线性能数据采集和分析方法,定位程序的可扩展性瓶颈,改进现有方法较大的离线存储和处理开销。
高性能计算机的系统规模持续增大,但是,大量重要的科学计算程序尚未扩展到相应的计算平台。缺少有效的大规模并行程序性能分析和优化工具是制约并行程序可扩展性的主要原因。本项目针对目前并行程序性能分析和优化工具面临的问题和挑战开展研究。主要研究成果包括以下几点:(1)设计并实现了基于硬件计数器的轻量级并行程序性能分析系统。该系统可以在线收集大规模并行程序计算和通信相关的性能数据,并分析程序的性能瓶颈,给出优化建议。(2)对典型应用程序计算和通信特征分析。本项目采用自主研发的性能采集和分析工具分析了国产天气预报程序的计算模式、通信模式和负载均衡等,并给出详细的分析报告。(3)在云平台上分析并行程序的可扩展性并验证了系统的健壮性。本项目采用研制的性能分析工具分析了NPB测试程序集在亚马逊云平台上的可扩展性。对不同问题规模和系统规模下程序的可扩展性进行了分析和研究。(4)研究基于静动态结合的通信记录压缩系统。本项目设计并实现了一个基于静态和动态方法混合的大规模并行程序通信记录压缩算法。该方法和动态压缩技术相比,可以减少5倍的进程内压缩开销和9倍的进程间压缩开销。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
基于格子Boltzmann方法的大规模可扩展并行计算研究
面向千万亿次计算的可扩展新型有限元算法及大规模并行程序
大规模非负矩阵分解的可扩展并行算法研究
面向激光聚变模拟的大规模异构众核系统可扩展并行算法与优化方法