Plane wave pseudopotential (PWP) density functional theory (DFT) calculation is the most widely used material science simulation, and the DFT-PWP codes are arguably the most important material science codes. We have implemented a DFT-PWP code SC_PEtot on a multi-node GPU machine. As far as we know, this is the first code scalable to large number of CPU/GPU computing units, and the GPU version can have a ~10 times speed-up over the CPU version and is ~5 times faster than the legendary VASP code.In this project, we want to achieved ~2 times speed-up over the old GPU code for a typical 512-1000 atoms system. Such speedup is much higher than other similar works for this important class of material simulation codes on GPU clusters. We plan to move the calculation fully into the GPU, adopt a new algorithm to reduce the MPI communication, and use new GPU and CPU numerical libraries. We also want to provide a detail analysis of the performance, a quantitative model for the computational times for different physical systems and number of GPU units. Such model can be used to understand the challenges and bottlenecks of the DFT-PWP simulations on heterogeneous machines.We will also extend the heterogenous computing algorithms to heterogeneous system combined with different CPU/Coprocessor configurations.
平面波赝势密度泛函计算是材料科学模拟中使用最广泛的一类方法,其软件在材料科学中有着举足轻重的地位。我们在前期工作中初步实现了基于该方法的多GPU加速软件:SC_PEtot。据我们所知,这是世界上第一个能扩展到多个GPU上的平面波赝势密度泛函软件,它相比CPU版本约快10倍,比领域内最风行的商业软件VASP快5倍。在本申请中,我们力争对典型的512-1000原子体系,将SC_PEtot的速度翻番,实现约20倍加速。在材料科学的GPU集群模拟中,这将是一个远高于同类研究加速比的新纪录。我们将通过:1)将计算完全移入GPU中进行;2)采用能降低MPI通信的新算法;3)采用新的CPU/GPU数值库等手段实现这一目标。同时我们会构建定量的性能分析模型,对不同物理体系和计算资源预测其计算时间,这将有助于理解异构计算中的瓶颈所在。我们也会尝试将上述研究推广到不同主/协处理器配比的异构系统中。
平面波赝势密度泛函计算是材料科学模拟中使用最广泛的一类方法,其软件在材料科学中有着举足轻重的地位。之前我们实现了基于该方法的多GPU 加速软件:SC_PEtot。据我们所知,这是世界上第一个能扩展到多个GPU 上的平面波赝势密度泛函软件,它相比CPU 版本约快10 倍,比领域内最风行的商业软件VASP 快5倍。我们的测试显示,对典型的512-1000 原子体系,我们成功将SC_PEtot 的速度翻番,实现约20倍加速。在材料科学的GPU 集群模拟中,这将是一个远高于同类研究加速比的新纪录。这一计算速度是通过:1)将计算完全移入GPU 中进行;2)采用能降低MPI 通信的新算法;3)采用新的CPU/GPU 数值库等手段实现这一目标。同时我们也构建了定量的性能分析模型,对不同物理体系和计算资源预测其计算时间,这一模型显示,针对目前的GPU集群架构,当个节点使用3块GPU卡对于密度泛函计算是最优配置。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
路基土水分传感器室内标定方法与影响因素分析
双吸离心泵压力脉动特性数值模拟及试验研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
含时密度泛函理论的时域快速算法研究
含时密度泛函理论
密度泛函理论中的界限研究
密度泛函价键理论方法的研究