In the context of Big Data era and the four-paradigm, traditional data-intensive computing is facing new opportunities and challenges. Scientific data are with a non-incremental feature, data processing are with multiple iterations and frequency domain characteristics. The traditional high-performance computing are computing-centric, focusing on memory sharing and message communications, which is unable to deal science data processing, especially big scientific data. To improving the performance and reliability of big data processing on HPC servers, this project focuses on: (1) the data-intensive programming model for scientific data, which will improve the data processing efficiency and reliability at the peta-scale level; (2)a purpose-driven online I/O optimization techniques for scientific data processing, such as online I/O profiling, memory-centric data processing, increamental data storing. (3) Topology-aware data placement and dynamic data scheduling algorithms, which will analyze the data structure and process features to make the best data mapping to the existing HPC architecture.
在大数据与第四范式的时代背景下,传统的数据密集型计算面临着新的机遇与挑战。科学领域的数据具有非增量式特征,数据的处理具有多迭代、频域计算多等特点,传统高性能计算中以内存共享与消息通信为中心的数据处理方式已不能应对大数据特征的科学数据处理,高性能计算机I/O系统边缘化设计现状使得这一问题尤为突出。本课题围绕高性能计算机上科学大数据处理的I/O瓶颈与可靠性问题,对其展开深入研究。课题围绕三个方面开展:(1)研究高性能计算机架构下的数据密集型编程模型,包括数据并行规则、可靠性保证等;(2)研究数据访问目的驱动的在线I/O性能优化方法,包括数据处理在线Profiling、内存复用机制、增量处理等;(3)研究结构感知的科学大数据处理数据分割与数据调度算法,包括科学大数据的静态分割与数据动态调度。本课题的成功研究将有助于促进高性能计算技术的发展,拓宽高性能计算的应用领域。
本课题从数据密集型编程框架、I/O性能优化、大数据处理数据分割与数据调度算法等方面开展研究。研究了以内存为中心的并行数据处理系统Mammoth,可扩展的大规模分布式协调器GIRAFFE等数据处理系统,比国际上主流数据计算系统效率更高,得到国际同行的高度认可,相关成果被美国电子和电气工程师协会会刊作为亮点技术推荐以及Cluster国际会议最佳论文提名。同时还提出了分布式数据处理系统中基于对象生命周期的内存管理机制、SSD高效写缓存机制,相关成果发表在VLDB、ICS上。在数据访问目的驱动的在线I/O性能优化技术方面提出了基于迭代处理的Collective I/O策略,相关成果发表在ICWS、CCGrid会议和FGCS期刊上。结构感知的科学大数据处理数据分割与数据调度算法研究方面研发了面向弹性云计算的解耦合MapReduce框架,In-Memory MapReduce系统内存效率优化机制以及GPU上基于着色的异步图计算系统。相关成果发表在PPoPP、ICA3PP等学术会议和TKDE期刊上。在国际ASF 以及Github上开源发布了Mammoth、GIRAFFE、SSDUP、Frog等系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
空间众包数据处理及其优化关键技术研究
机载大孔径静态干涉光谱成像数据处理关键技术研究
物联网环境下视频大数据处理平台设计理论与关键技术研究
点云数据处理中的最优化理论与方法