The GPU clusters have become a hot research field of supercomputing in the world, a large number of high efficiency, low energy GPU clusters have been put on the shelf. As the heterogeneous clusters, GPU clusters can not get rid of two traditional problems: the programming obtacle and the scarcity of applications. It make it worse when a large number of commercial software can not directly use the acceleration capability of the GPU cluster.This project draws on the theory and practice from field of distributed storage virtualization, exploit the dynamic library interception, block sampling technology, and virtual GPU interrupt technology as the main research tool, to build up a single virtual GPU image from the whole GPU cluster, which we call the Global GPU. Global GPU simplify the programming complexity and give transparent support to the commercial software, finally enhance the availability and usability of the GPU cluster.
当前GPU集群已成为超级计算领域的研究热点,在国内和国际领域出现大量高效率、低能耗的超级GPU集群。但GPU集群作为异构集群,仍然无法摆脱编程难和应用少这两个传统问题,特别是大量商用软件不能直接使用GPU集群提供的加速能力,影响了GPU集群的实用性。本项目借鉴分布式存储领域的虚拟化理论和实践,以动态库拦截和块采样、虚拟GPU中断为主要研究工具,力图通过将GPU集群虚拟为单一的GPU镜像,从而简化编程复杂度,透明地支持商用软件和不开源软件,最终提升GPU集群的可用性和实用性。
本课题的主要研究对象为异构GPU集群的虚拟化机制,针对目前多GPU平台编程难、调试难、维护难等问题,提出适用于异构多GPU平台的分布式中间件,以提高异构多GPU环境的可用性和可靠性。 包括三个主要部分:.1)面向多GPU的全局虚拟化系统GKM(Global Kernel for Multi-GPU).本课题设计和实现了预采样、块切割、KERNEL桩代码等技术,将分布式节点的多个GPU抽象为单一节点的单一GPU,简化了分布式GPU集群的编程复杂度,提供了便利的集群GPU管理方法,降低了集群节点使用商用许可证的成本。.2)面向多GPU的全局GPU检查方案GCM(Global Checkpoint for Multi-GPU).本课题设计和实现了KERNEL可重入技术、GPU内部镜像技术,建立了在多GPU节点上实现检查方案的框架。.3)针对以上系统的多GPU数据通信优化研究.本课题设计和实现了GPU显存管理的异步机制、零复制技术和数据懒惰更新机制,有效的降低了GKM的数据传输开销,提高了实用性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
基于综合治理和水文模型的广西县域石漠化小流域区划研究
智能煤矿建设路线与工程实践
非牛顿流体剪切稀化特性的分子动力学模拟
中国出口经济收益及出口外资渗透率分析--基于国民收入视角
面向通用GPU虚拟化多任务的三维堆叠存储架构研究
GPU通用计算系统检查点方法研究
基于GPU集群的大规模量子线路仿真理论与方法研究
面向多核虚拟集群的并行应用性能优化方法研究