Over the past years, instruction-level parallelism, data parallelism, and thread-level parallelism are three main parallel mechanisms used by modern processors to improve performance. However, these mechanisms are always implemented and provided by a single processor separately in order to achieve both high performance and general-purpose usage. This caused the increase of die area and transistors occupied by the entire chip, and also the cost of the chip. Excessive resource and low efficiency of resource utilization are the main reasons for the big TDP number of modern general-purpose high-performance processors. According to simple analysis of application patterns, we know that the parallel capabilities such as thread-level parallelism, data parallelism and so on, are not need to be provided at the same time. Instead, usually they are used by turns. Therefore, it is actually not necessary to provide different functional units for different parallelism..This project mainly focuses on using only one control and computing logic to build new processor architectures, which could not only support thread level parallelism execution, but also support vector data processing and computing. The key point is using one deep pipeline data path which can be reconfigured to support execution of both thread-level parallelism code and data parallelism code. And it can switch between the two modes adapting to different requirements of applications. The new architecture can dramatically improve the utilization rate of hardware resources, and achieve a better balance among high performance, low cost, low power, and general-purpose usage.
长期以来,指令级并行、数据级并行和线程级并行是现代处理器用来提升性能的三种并行机制,然而,为了追求高性能和通用性,处理器中指令级并行、数据级并行和线程级并行的结构通常是分别配备的,导致整个芯片占用较多资源,芯片的成本增大了。资源的过度配置和资源利用率的低下也是现代高性能通用处理器功耗过高的主要原因。根据对应用模式的简单分析可知,线程并行和数据并行等多种能力并不需要同时提供,经常可能是互相交错的。所以,为不同的并行能力提供不同的功能部件,并无必要。本项目重点研究在同一套控制和运算部件上,既能支持多线程并行执行,又能支持向量数据并行计算的新型处理器体系结构。核心是利用一组可重构的深度流水数据通路,同时支持线程并行代码和数据并行代码的执行,并可根据应用需求,在两种执行模式间动态切换。这种创新的体系结构可大大提高硬件资源的利用率,从而达到高性能、低成本、低能耗和通用性的平衡。
当前,为了追求高性能和通用性,处理器中指令级并行、数据级并行和线程级并行的结构通常是分别配备的,导致整个芯片占用较多资源,增大了芯片的成本。资源的过度配置和资源利用率的低下也是现代高性能通用处理器功耗过高的主要原因。本项目提出了基于数据流理论的众核处理器体系架构设计方案,并完成了芯片的研发和验证,能够支持多种执行模式和多种并行运行支持,打破了传统控制流中的存储器、并行墙以及用户无法深度控制硬件资源的隔离墙。同时,提出了ETDPIC指令集系统以及优化的软件指令映射算法;提出了高能效片上数据通路设计结构;提出了高能效的片上存储设计及面向SIMD执行模式的存储访问优化技术等。与通用的高性能通用处理器以及最新数字信号处理器DSP相比,本项目研发的基于数据流理论的高能效处理器在性能有近3倍的优势和能效比具有2倍以上的优势。项目研究期间,发表论文46篇,其中CCF A类论文5篇,B类论文10篇,包括HPCA、CGO、ICSE、PCAT、DATE等;SCI论文7篇,包括TPDS、TSE、JCST等;申请专利25项,已授权6项;培养正高级创新人才2名;培养副高级创新人才3人;培养博士研究生22名。本项目研究的基于数据流理论的线程并行和数据并行合一的处理器体系架构,相对于当前的通用高性能处理器以及数字信号处理器具有明显的性能和能效优势,可广泛应用于科学计算领域、图像图像处理、数字信号处理、人工智能等典型应用场景中,具有广阔的市场应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于改进LinkNet的寒旱区遥感图像河流识别方法
智能煤矿建设路线与工程实践
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
机电控制无级变速器执行机构动态响应特性仿真研究
新的并行算法及面向新的并行算法的新型并行体系结构
基于线程级推测的非规则算法并行化研究
基于汇点脆弱性评估的可伸缩并行化漏洞挖掘方法研究
新型体系结构上多群粒子输运问题的可扩展并行计算