GPU通用计算系统检查点方法研究

基本信息
批准号:61272190
项目类别:面上项目
资助金额:81.00
负责人:陈浩
学科分类:
依托单位:湖南大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:孙建华,谭怀亮,石林,彭鑫,刘樑骄,段国云,姜曙光,刘超,李菁平
关键词:
GPU通用计算检查点虚拟机程序分析
结项摘要

This project aims to improve the dependability of general purpose GPU (GPGPU) computing systems such as high performance computing and supercomputers, by exploring theoretical foundations and implementation techniques of high-efficient checkpointing mechanisms for GPGPU systems. This proposal consists of three major contributions. First, based on four design principles such as robustness, high-performance, transparency, and flexibility, we propose a novel checkpoint-inside-the-kernel mechanism for GPU kernels, which combines several techniques such as incremental storage and static analysis to aid the retrieval, record and recovery of GPU runtime states, and can be easily integrated into a conventional CPU-based checkpointing system. Second, based on existing GPGPU development frameworks, we propose to model GPU hardware intricacies by leveraging the inherent semantics of GPU programs, which has important implications for building a transparent GPU checkpointing system. Third, we further explore potential applications of GPU checkpointing mechanism in three typical scenarios: online task migration in virtual machines, debugging support and automatic failure diagnosis of GPU programs.

本项目以GPU图形处理器在通用计算系统中的应用为背景,以提高GPU通用计算系统的可靠性为切入点,探索GPU程序高效检查点技术的实现方法与理论基础,使之满足GPU通用计算系统在高性能计算和超级计算中的理论和应用需要。以鲁棒性、高性能、透明性、灵活性为设计原则,将传统CPU检查点技术与GPU的体系结构特征结合起来,系统性地研究GPU核内检查点机制中的主要过程和关键问题,将增量存储、代码静态分析等技术融入到GPU核内状态的读取、保存和恢复过程中;对GPU硬件状态进行分析和建模,提取主要的特征参数,基于现有GPU通用计算软件开发框架,分析GPU程序内部语义,构建用户透明的检查点技术;研究GPU检查点技术在不同应用场景的应用,如虚拟机环境中的GPU计算任务在线迁移、GPU程序调试支持和自动错误诊断。

项目摘要

本项目以GPU图形处理器在通用计算系统中的应用为背景,以提高GPU通用计算系统的可靠性为切入点,探索GPU检查点技术的实现方法,使GPU满足在高性能计算系统中的特定需求。.以GPU检查点技术为目标,研究内容包括:1. GPU核内检查点实现方法,具体来讲,研究了GPU线程块调度机制,GPU块间和块内执行状态的表示方法、读写方式,并以此为基础实现GPU核间和核内检查点方案;2. 为深入了解GPU程序的容错机制,研究了GPU程序中存在的与动态内存管理相关的错误,特别地,分析了并发GPU程序可能产生的堆栈溢出、整数溢出、结构体指针覆盖等问题;3. 为考察GPU检查点技术在虚拟化系统中的应用,比如虚拟机中GPU应用的在线迁移,研究了虚拟机域间快速通信机制,以及跟IO相关的虚拟机调度算法;4. 检查点技术需要保存的数据量巨大,为节省存储和时间开销,研究了基于GPU的数据去冗余算法和分布式数据去冗余方法。另外,研究了基于云存储的文件系统,探索如何高效利用云存储来保存不同类型的用户数据;5. 为深入分析真实GPU应用程序的运行特征,研究了基于GPU的图计算系统优化方法。另外,实现了基于角色编程模型的图计算系统,并实现了一种轻量级检查点容错机制。.在国际期刊和会议上发表论文11篇,其中5篇属于中国计算机协会(CCF)推荐的A类期刊论文,1篇CCF B类期刊论文,2篇CCF B类会议论文,1篇CCF C类会议论文。项目组开发了7个相关系统,其中基于GPU的Rabin指纹算法实现、基于角色编程模型的图计算系统、GPU动态内存溢出测试三个系统的源代码已经对外开放,其他系统也通过各种形式共享,这种开放共享的形式有助于提高研究成果的学术和社会影响力。.从个体看,本项目的研究成果有较突出的原创性,比如核内检查点方法、并发GPU应用潜在内存溢出问题、性能高达40Gbps的GPU数据去冗余算法、基于角色编程模型的图计算;从整体看,研究成果对增强高性能计算系统可靠性、降低系统存储代价、提高虚拟机性能、探索异构系统图计算编程模型等方面,都有现实的科学意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

陈浩的其他基金

批准号:48900001
批准年份:1989
资助金额:2.50
项目类别:青年科学基金项目
批准号:61805257
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:11601367
批准年份:2016
资助金额:18.00
项目类别:青年科学基金项目
批准号:U1860109
批准年份:2018
资助金额:52.00
项目类别:联合基金项目
批准号:31500405
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:11301575
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:11574347
批准年份:2015
资助金额:73.00
项目类别:面上项目
批准号:41101405
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:31772178
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:71904180
批准年份:2019
资助金额:18.50
项目类别:青年科学基金项目
批准号:31702233
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:81802322
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:51508535
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81102067
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:61805194
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:61472132
批准年份:2014
资助金额:83.00
项目类别:面上项目
批准号:31872691
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:41371155
批准年份:2013
资助金额:60.00
项目类别:面上项目
批准号:31100841
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:51501099
批准年份:2015
资助金额:24.00
项目类别:青年科学基金项目
批准号:51872107
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:91013009
批准年份:2010
资助金额:50.00
项目类别:重大研究计划
批准号:51572101
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:61771170
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:30970884
批准年份:2009
资助金额:8.00
项目类别:面上项目
批准号:61101184
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:81871039
批准年份:2018
资助金额:56.00
项目类别:面上项目
批准号:51901107
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:81401103
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目
批准号:20903070
批准年份:2009
资助金额:19.00
项目类别:青年科学基金项目
批准号:81300279
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:81501657
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:61102159
批准年份:2011
资助金额:24.00
项目类别:青年科学基金项目
批准号:51608251
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:61772183
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:31000742
批准年份:2010
资助金额:18.00
项目类别:青年科学基金项目
批准号:81771984
批准年份:2017
资助金额:50.00
项目类别:面上项目
批准号:21778032
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:21071077
批准年份:2010
资助金额:15.00
项目类别:面上项目
批准号:61772190
批准年份:2017
资助金额:63.00
项目类别:面上项目
批准号:81871202
批准年份:2018
资助金额:56.00
项目类别:面上项目
批准号:51305252
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61775088
批准年份:2017
资助金额:16.00
项目类别:面上项目
批准号:40471085
批准年份:2004
资助金额:30.00
项目类别:面上项目
批准号:51403190
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:51404239
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:11526147
批准年份:2015
资助金额:3.00
项目类别:数学天元基金项目
批准号:51704303
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:81671432
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:60703096
批准年份:2007
资助金额:7.00
项目类别:青年科学基金项目
批准号:11274144
批准年份:2012
资助金额:86.00
项目类别:面上项目

相似国自然基金

1

面向通用计算集群的全局GPU虚拟化理论与方法研究

批准号:61300038
批准年份:2013
负责人:石林
学科分类:F0204
资助金额:23.00
项目类别:青年科学基金项目
2

面向GPU的电力系统电磁暂态并行计算方法研究

批准号:51207076
批准年份:2012
负责人:陈来军
学科分类:E0704
资助金额:24.00
项目类别:青年科学基金项目
3

使用通用GPU的非同质分布式数据流skyline查询方法的研究

批准号:61073061
批准年份:2010
负责人:赵雷
学科分类:F0202
资助金额:31.00
项目类别:面上项目
4

通用异构并行密度泛函计算方法研究

批准号:21403003
批准年份:2014
负责人:范果红
学科分类:B0301
资助金额:25.00
项目类别:青年科学基金项目