面向国产通用DSP的类OpenMP并行程序设计方法

基本信息
批准号:61602495
项目类别:青年科学基金项目
资助金额:20.00
负责人:甘新标
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:李胜国,龚春叶,王庆林,朱琪,刘锐,周陈,李润华,季晓聪,孙建政
关键词:
基于反馈的自动循环展开通用数字信号处理器优化空间搜索及自动向量化HPL类OpenMP编程方法
结项摘要

GPDSP (General Purpose Digital Signal Processing) would become computing core for self-control high-performance accelerator because of Chip Restricted Order from USA. However, there is no OpenMP programming model for GPDSP and it is challenging for programmers to develop efficient GPDSP parallel programs with explicitly managing GPDSP device, data communication and task scheduling. Hence we propose an easy to program, easy to tune OpenMP-like parallel programming model, which includes: (1) OpenMP-like directives extending to simplify parallel programming, (2) RLU (Recuperative Loop Unrolling) and OSp4Vector(Optimization Space pruning for Vectorization) to take full advantage of VPE (Vector Processing Element) equipped in GPDSP. And then we validate above techniques using HPL (High Performance Linpack) benchmark. Domestic-oriented GPDSP parallel programming model would shield architectural details in VPE, reduce difficulties to develop and optimize programs for GPDSP, and promote application as well as development for domestic self-controlled high-performance processors.

通用数字信号处理器GPDSP在芯片限售令的封锁和限制下将加速成为国产自主可控高性能加速器的核心。但是,GPDSP不支持OpenMP并行编程模式,开发高效的GPDSP并行应用程序需要程序员显式管理GPDSP设备、数据通信和任务调度。为此,本项目提出了一种易于编程、易于调优的类OpenMP并行程序设计方法,该方法主要包括:(1)以简化GPDSP并行编程为目标的类OpenMP编程命令指示字扩展;(2)为了充分利用GPDSP向量计算单元,提出了基于反馈的自动循环展开RLU技术和设计了优化空间搜索及自动向量化OSp4Vector方法;最后通过基准测试程序HPL验证有效性。面向国产通用DSP的类OpenMP并行程序设计方法能够很好地屏蔽GPDSP体系结构和向量处理单元细节,显著减少GPDSP程序开发与移植的工作量,降低程序优化难度,促进国产自主可控高性能处理器的发展和推广应用。

项目摘要

GPDSP在芯片限售令的推力下将加速成为国产自主可控高性能加速器的核心,为了开发高效的GPDSP并行应用程序,针对GPDSP不支持OpenMP编程模式、并行编程要求高,优化困难等客观开发环境,设计一种易于编程、易于调优的类OpenMP并行程序设计方法,并通过基准测试程序HPL(High Performance Linpack,HPL)验证有效性。易于编程、易于调优的类OpenMP并行程序设计方法主要包括以简化GPDSP并行编程为目标的类OpenMP编程命令指示字扩展;为了充分利用GPDSP向量计算单元,提出的基于反馈的自动循环展开(Recuperative Loop Unrolling,RLU)技术和优化空间搜索及自动向量化(Optimization Space pruning for Vectorization,OSp4Vector)方法。面向国产通用DSP的并行程序设计方法能够很好地屏蔽GPDSP体系结构和向量处理单元细节,显著减少GPDSP程序开发与移植的工作量,降低程序优化难度,基于GPDSP的类OpenMP编程命令指示字扩展的天河异构编程模型协助完成了天河二号升级系统的数十个百万核应用程序的开发与优化,基于混合层循环的自动向量优化方法协助西安电子科技大学电磁应用程序百万核扩展优化,并行效率32%,基于GPDSP的类OpenMP编程命令指示字编程方法的Graph500设计与优化完成在天河三号E级验证系统512结点实测性能2313GTEPS的优异成绩,跻身当期Graph500排名第十,等系统规模下,实测效率国际领先,促进国产自主可控高性能处理器的发展和推广应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020

甘新标的其他基金

相似国自然基金

1

面向多核DSP的实时视频并行编码关键技术研究

批准号:61502278
批准年份:2015
负责人:李哲
学科分类:F0210
资助金额:20.00
项目类别:青年科学基金项目
2

基于OpenMP的多范例、多粒度并行模型及并行编译优化

批准号:60373008
批准年份:2003
负责人:胡长军
学科分类:F0203
资助金额:23.00
项目类别:面上项目
3

面向MPSoC的确定性结构化并行程序设计与分析方法研究

批准号:61300010
批准年份:2013
负责人:计卫星
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
4

可视并行程序设计环境

批准号:69503001
批准年份:1995
负责人:杨学军
学科分类:F0204
资助金额:7.00
项目类别:青年科学基金项目