GPU通用计算系统检查点方法研究

基本信息

批准号：61272190

项目类别：面上项目

资助金额：81.00

负责人：陈浩

学科分类：

依托单位：湖南大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：孙建华,谭怀亮,石林,彭鑫,刘樑骄,段国云,姜曙光,刘超,李菁平

关键词：

GPU通用计算检查点虚拟机程序分析

结项摘要

This project aims to improve the dependability of general purpose GPU (GPGPU) computing systems such as high performance computing and supercomputers, by exploring theoretical foundations and implementation techniques of high-efficient checkpointing mechanisms for GPGPU systems. This proposal consists of three major contributions. First, based on four design principles such as robustness, high-performance, transparency, and flexibility, we propose a novel checkpoint-inside-the-kernel mechanism for GPU kernels, which combines several techniques such as incremental storage and static analysis to aid the retrieval, record and recovery of GPU runtime states, and can be easily integrated into a conventional CPU-based checkpointing system. Second, based on existing GPGPU development frameworks, we propose to model GPU hardware intricacies by leveraging the inherent semantics of GPU programs, which has important implications for building a transparent GPU checkpointing system. Third, we further explore potential applications of GPU checkpointing mechanism in three typical scenarios: online task migration in virtual machines, debugging support and automatic failure diagnosis of GPU programs.

本项目以GPU图形处理器在通用计算系统中的应用为背景，以提高GPU通用计算系统的可靠性为切入点，探索GPU程序高效检查点技术的实现方法与理论基础，使之满足GPU通用计算系统在高性能计算和超级计算中的理论和应用需要。以鲁棒性、高性能、透明性、灵活性为设计原则，将传统CPU检查点技术与GPU的体系结构特征结合起来，系统性地研究GPU核内检查点机制中的主要过程和关键问题，将增量存储、代码静态分析等技术融入到GPU核内状态的读取、保存和恢复过程中；对GPU硬件状态进行分析和建模，提取主要的特征参数，基于现有GPU通用计算软件开发框架，分析GPU程序内部语义，构建用户透明的检查点技术；研究GPU检查点技术在不同应用场景的应用，如虚拟机环境中的GPU计算任务在线迁移、GPU程序调试支持和自动错误诊断。

项目摘要

本项目以GPU图形处理器在通用计算系统中的应用为背景，以提高GPU通用计算系统的可靠性为切入点，探索GPU检查点技术的实现方法，使GPU满足在高性能计算系统中的特定需求。.以GPU检查点技术为目标，研究内容包括：1. GPU核内检查点实现方法，具体来讲，研究了GPU线程块调度机制，GPU块间和块内执行状态的表示方法、读写方式，并以此为基础实现GPU核间和核内检查点方案；2. 为深入了解GPU程序的容错机制，研究了GPU程序中存在的与动态内存管理相关的错误，特别地，分析了并发GPU程序可能产生的堆栈溢出、整数溢出、结构体指针覆盖等问题；3. 为考察GPU检查点技术在虚拟化系统中的应用，比如虚拟机中GPU应用的在线迁移，研究了虚拟机域间快速通信机制，以及跟IO相关的虚拟机调度算法；4. 检查点技术需要保存的数据量巨大，为节省存储和时间开销，研究了基于GPU的数据去冗余算法和分布式数据去冗余方法。另外，研究了基于云存储的文件系统，探索如何高效利用云存储来保存不同类型的用户数据；5. 为深入分析真实GPU应用程序的运行特征，研究了基于GPU的图计算系统优化方法。另外，实现了基于角色编程模型的图计算系统，并实现了一种轻量级检查点容错机制。.在国际期刊和会议上发表论文11篇，其中5篇属于中国计算机协会（CCF）推荐的A类期刊论文，1篇CCF B类期刊论文，2篇CCF B类会议论文，1篇CCF C类会议论文。项目组开发了7个相关系统，其中基于GPU的Rabin指纹算法实现、基于角色编程模型的图计算系统、GPU动态内存溢出测试三个系统的源代码已经对外开放，其他系统也通过各种形式共享，这种开放共享的形式有助于提高研究成果的学术和社会影响力。.从个体看，本项目的研究成果有较突出的原创性，比如核内检查点方法、并发GPU应用潜在内存溢出问题、性能高达40Gbps的GPU数据去冗余算法、基于角色编程模型的图计算；从整体看，研究成果对增强高性能计算系统可靠性、降低系统存储代价、提高虚拟机性能、探索异构系统图计算编程模型等方面，都有现实的科学意义。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

陈浩的其他基金

批准号：48900001

批准年份：1989

资助金额：2.50

项目类别：青年科学基金项目

批准号：61805257

批准年份：2018

资助金额：24.00

项目类别：青年科学基金项目

批准号：11601367

批准年份：2016

资助金额：18.00

项目类别：青年科学基金项目

批准号：U1860109

批准年份：2018

资助金额：52.00

项目类别：联合基金项目

批准号：31500405

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：11301575

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

批准号：11574347

批准年份：2015

资助金额：73.00

项目类别：面上项目

批准号：41101405

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：31772178

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：71904180

批准年份：2019

资助金额：18.50

项目类别：青年科学基金项目

批准号：31702233

批准年份：2017

资助金额：24.00

项目类别：青年科学基金项目

批准号：81802322

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：51508535

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：81102067

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：61805194

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：61472132

批准年份：2014

资助金额：83.00

项目类别：面上项目

批准号：31872691

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：41371155

批准年份：2013

资助金额：60.00

项目类别：面上项目

批准号：31100841

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：51501099

批准年份：2015

资助金额：24.00

项目类别：青年科学基金项目

批准号：51872107

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：91013009

批准年份：2010

资助金额：50.00

项目类别：重大研究计划

批准号：51572101

批准年份：2015

资助金额：64.00

项目类别：面上项目

批准号：61771170

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：30970884

批准年份：2009

资助金额：8.00

项目类别：面上项目

批准号：61101184

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：81871039

批准年份：2018

资助金额：56.00

项目类别：面上项目

批准号：51901107

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

批准号：81401103

批准年份：2014

资助金额：22.00

项目类别：青年科学基金项目

批准号：20903070

批准年份：2009

资助金额：19.00

项目类别：青年科学基金项目

批准号：81300279

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：81501657

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：61102159

批准年份：2011

资助金额：24.00

项目类别：青年科学基金项目

批准号：51608251

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：61772183

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：31000742

批准年份：2010

资助金额：18.00

项目类别：青年科学基金项目

批准号：81771984

批准年份：2017

资助金额：50.00

项目类别：面上项目

批准号：21778032

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：21071077

批准年份：2010

资助金额：15.00

项目类别：面上项目

批准号：61772190

批准年份：2017

资助金额：63.00

项目类别：面上项目

批准号：81871202

批准年份：2018

资助金额：56.00

项目类别：面上项目

批准号：51305252

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：61775088

批准年份：2017

资助金额：16.00

项目类别：面上项目

批准号：40471085

批准年份：2004

资助金额：30.00

项目类别：面上项目

批准号：51403190

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：51404239

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：11526147

批准年份：2015

资助金额：3.00

项目类别：数学天元基金项目

批准号：51704303

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：81671432

批准年份：2016

资助金额：57.00

项目类别：面上项目

批准号：60703096

批准年份：2007

资助金额：7.00

项目类别：青年科学基金项目

批准号：11274144

批准年份：2012

资助金额：86.00

项目类别：面上项目

相似国自然基金

面向通用计算集群的全局GPU虚拟化理论与方法研究

批准号：61300038

批准年份：2013

负责人：石林

学科分类：F0204

资助金额：23.00

项目类别：青年科学基金项目

面向GPU的电力系统电磁暂态并行计算方法研究

批准号：51207076

批准年份：2012

负责人：陈来军

学科分类：E0704

资助金额：24.00

项目类别：青年科学基金项目

使用通用GPU的非同质分布式数据流skyline查询方法的研究

批准号：61073061

批准年份：2010

负责人：赵雷

学科分类：F0202

资助金额：31.00

项目类别：面上项目

通用异构并行密度泛函计算方法研究

批准号：21403003

批准年份：2014

负责人：范果红

学科分类：B0301

资助金额：25.00

项目类别：青年科学基金项目

GPU通用计算系统检查点方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

智能煤矿建设路线与工程实践

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

陈浩的其他基金

流域坡面与沟道侵蚀演化关系实验研究

大气VOCs臭氧化分解反应对FAGE技术OH自由基测量的干扰影响研究

三种情形计算机试验的设计与建模

闪速加热对高强韧冷轧带钢组织与性能的影响机理

西南喀斯特山区森林土壤氮素转化对氮沉降的响应

刚性微分方程高阶隐式离散解的快速迭代算法

基于双交叉偶极子和多分量记录的三维声波测井理论与实验研究

基于GIS的生物入侵时空多尺度预测模型研究

利用二化螟内源microRNA培育抗二化螟转基因水稻的机理及应用研究

电力调度机制改革红利的评估模型及分配方法研究

鹅细小病毒宿主差异性的分子基础

神经生长因子受体P75NGFR调控TIMP2/MMP25平衡逆转EMT抑制结直肠癌侵袭转移的机制研究

地震序列作用下砌体结构弹塑性动力破坏倒塌情景仿真

缺氧诱导因子HIF-1α调控SCF/KIT途径在肢端黑素瘤发病机制中的作用研究

数据驱动的单波长米散射激光雷达精细反演气溶胶光学参量方法研究

泛在网络环境下用户兴趣建模与移动推荐方法研究

氮沉降是否加剧“氮饱和”的喀斯特森林生态系统磷限制

长江三角洲旅游流空间网络结构特征及演化机制研究

CD147调控精子发生的分子机制

钢中合金元素与界面间的相互作用对相变动力学的影响

卤素诱导Aurivillius结构Bi基材料氧空位的可控构筑及其可见光再生行为机制研究

抗生素类小分子诱导绿脓杆菌耐药性的信号传导调控

助催化剂选择性负载钼酸盐基材料及其光催化降解农药构效关系

基于关键信息空谱/时预测的高频次超光谱红外图像压缩新方法研究

硬性透氧性角膜接触镜超精密三维曲面重构实验研究

自治对地观测卫星星地协同规划模型及方法研究

NREM睡眠在联合型运动记忆巩固中的作用及其前额叶皮层重激活机制研究

基于小冲杆试验方法的热障涂层高温蠕变失效研究

延长觉醒对运动性学习中前额叶皮层-小脑振荡同步化的影响及机制研究

以活化凹凸棒石流变特性为基础的橄榄油/水绿色乳液研制及界面稳定机理研究

BM-MSCs旁分泌调控小肠上皮干细胞修复小肠黏膜损伤的机制研究

PTEN泛素化调控NF-κB信号通路参与颅脑创伤后微血栓形成的作用及机制研究

基于核最优配置张量渐进分解的高光谱图象压缩方法研究

中国三四线城市新区“透支型”衰退的现象、机制与应对研究：以江苏典型城市新区为例

异构内存计算系统的扩展性问题研究

利用人工microRNA技术改良水稻抗虫性的应用及其分子机理的研究

药物缓释超疏水多功能型人工晶状体材料研究及其生物相容性评价

重金属调控蛋白MerR家族结构和功能的应用研究

绿脓杆菌金属调控蛋白CzcR的性质及其分子调控机制的研究

云环境下近红外光谱大数据智能分析和多维特征建模算法研究

CD147调节的CatSper非依赖性钙离子内流对人精子功能的作用及机制研究

中小型机具固定道作业系统节能机理研究

钬激光器双波长同带泵浦及双增益光谱平坦技术研究

黄河中游侵蚀产沙的环境要素临界与交互作用

木竹材碳基三元复合电极材料三维孔道构筑机制及构效关系研究

深埋隧道软弱围岩与支护结构相互作用机理研究

计算机试验某些新问题的研究

考虑杂质混入、水盾阻隔及孔隙尺寸效应的CO2近混相驱油典型特征研究

CD147/CAS介导的EMT参与子宫内膜异位症发病机制的研究

基于多向量收敛的网络定位算法研究

YAG透明陶瓷中“晶界”对激光振荡的调控机理研究

相似国自然基金