GPDSP (General Purpose Digital Signal Processing) would become computing core for self-control high-performance accelerator because of Chip Restricted Order from USA. However, there is no OpenMP programming model for GPDSP and it is challenging for programmers to develop efficient GPDSP parallel programs with explicitly managing GPDSP device, data communication and task scheduling. Hence we propose an easy to program, easy to tune OpenMP-like parallel programming model, which includes: (1) OpenMP-like directives extending to simplify parallel programming, (2) RLU (Recuperative Loop Unrolling) and OSp4Vector(Optimization Space pruning for Vectorization) to take full advantage of VPE (Vector Processing Element) equipped in GPDSP. And then we validate above techniques using HPL (High Performance Linpack) benchmark. Domestic-oriented GPDSP parallel programming model would shield architectural details in VPE, reduce difficulties to develop and optimize programs for GPDSP, and promote application as well as development for domestic self-controlled high-performance processors.
通用数字信号处理器GPDSP在芯片限售令的封锁和限制下将加速成为国产自主可控高性能加速器的核心。但是,GPDSP不支持OpenMP并行编程模式,开发高效的GPDSP并行应用程序需要程序员显式管理GPDSP设备、数据通信和任务调度。为此,本项目提出了一种易于编程、易于调优的类OpenMP并行程序设计方法,该方法主要包括:(1)以简化GPDSP并行编程为目标的类OpenMP编程命令指示字扩展;(2)为了充分利用GPDSP向量计算单元,提出了基于反馈的自动循环展开RLU技术和设计了优化空间搜索及自动向量化OSp4Vector方法;最后通过基准测试程序HPL验证有效性。面向国产通用DSP的类OpenMP并行程序设计方法能够很好地屏蔽GPDSP体系结构和向量处理单元细节,显著减少GPDSP程序开发与移植的工作量,降低程序优化难度,促进国产自主可控高性能处理器的发展和推广应用。
GPDSP在芯片限售令的推力下将加速成为国产自主可控高性能加速器的核心,为了开发高效的GPDSP并行应用程序,针对GPDSP不支持OpenMP编程模式、并行编程要求高,优化困难等客观开发环境,设计一种易于编程、易于调优的类OpenMP并行程序设计方法,并通过基准测试程序HPL(High Performance Linpack,HPL)验证有效性。易于编程、易于调优的类OpenMP并行程序设计方法主要包括以简化GPDSP并行编程为目标的类OpenMP编程命令指示字扩展;为了充分利用GPDSP向量计算单元,提出的基于反馈的自动循环展开(Recuperative Loop Unrolling,RLU)技术和优化空间搜索及自动向量化(Optimization Space pruning for Vectorization,OSp4Vector)方法。面向国产通用DSP的并行程序设计方法能够很好地屏蔽GPDSP体系结构和向量处理单元细节,显著减少GPDSP程序开发与移植的工作量,降低程序优化难度,基于GPDSP的类OpenMP编程命令指示字扩展的天河异构编程模型协助完成了天河二号升级系统的数十个百万核应用程序的开发与优化,基于混合层循环的自动向量优化方法协助西安电子科技大学电磁应用程序百万核扩展优化,并行效率32%,基于GPDSP的类OpenMP编程命令指示字编程方法的Graph500设计与优化完成在天河三号E级验证系统512结点实测性能2313GTEPS的优异成绩,跻身当期Graph500排名第十,等系统规模下,实测效率国际领先,促进国产自主可控高性能处理器的发展和推广应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
面向多核DSP的实时视频并行编码关键技术研究
基于OpenMP的多范例、多粒度并行模型及并行编译优化
面向MPSoC的确定性结构化并行程序设计与分析方法研究
可视并行程序设计环境