科学大数据处理优化理论与关键技术研究

基本信息
批准号:61370104
项目类别:面上项目
资助金额:76.00
负责人:石宣化
学科分类:
依托单位:华中科技大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:李赤松,覃韩锋,凌笑,陆路,朱洪青,易宇声,徐凡博,黄亚宁,梁俊岭
关键词:
数据密集型计算运行时科学大数据编程模型
结项摘要

In the context of Big Data era and the four-paradigm, traditional data-intensive computing is facing new opportunities and challenges. Scientific data are with a non-incremental feature, data processing are with multiple iterations and frequency domain characteristics. The traditional high-performance computing are computing-centric, focusing on memory sharing and message communications, which is unable to deal science data processing, especially big scientific data. To improving the performance and reliability of big data processing on HPC servers, this project focuses on: (1) the data-intensive programming model for scientific data, which will improve the data processing efficiency and reliability at the peta-scale level; (2)a purpose-driven online I/O optimization techniques for scientific data processing, such as online I/O profiling, memory-centric data processing, increamental data storing. (3) Topology-aware data placement and dynamic data scheduling algorithms, which will analyze the data structure and process features to make the best data mapping to the existing HPC architecture.

在大数据与第四范式的时代背景下,传统的数据密集型计算面临着新的机遇与挑战。科学领域的数据具有非增量式特征,数据的处理具有多迭代、频域计算多等特点,传统高性能计算中以内存共享与消息通信为中心的数据处理方式已不能应对大数据特征的科学数据处理,高性能计算机I/O系统边缘化设计现状使得这一问题尤为突出。本课题围绕高性能计算机上科学大数据处理的I/O瓶颈与可靠性问题,对其展开深入研究。课题围绕三个方面开展:(1)研究高性能计算机架构下的数据密集型编程模型,包括数据并行规则、可靠性保证等;(2)研究数据访问目的驱动的在线I/O性能优化方法,包括数据处理在线Profiling、内存复用机制、增量处理等;(3)研究结构感知的科学大数据处理数据分割与数据调度算法,包括科学大数据的静态分割与数据动态调度。本课题的成功研究将有助于促进高性能计算技术的发展,拓宽高性能计算的应用领域。

项目摘要

本课题从数据密集型编程框架、I/O性能优化、大数据处理数据分割与数据调度算法等方面开展研究。研究了以内存为中心的并行数据处理系统Mammoth,可扩展的大规模分布式协调器GIRAFFE等数据处理系统,比国际上主流数据计算系统效率更高,得到国际同行的高度认可,相关成果被美国电子和电气工程师协会会刊作为亮点技术推荐以及Cluster国际会议最佳论文提名。同时还提出了分布式数据处理系统中基于对象生命周期的内存管理机制、SSD高效写缓存机制,相关成果发表在VLDB、ICS上。在数据访问目的驱动的在线I/O性能优化技术方面提出了基于迭代处理的Collective I/O策略,相关成果发表在ICWS、CCGrid会议和FGCS期刊上。结构感知的科学大数据处理数据分割与数据调度算法研究方面研发了面向弹性云计算的解耦合MapReduce框架,In-Memory MapReduce系统内存效率优化机制以及GPU上基于着色的异步图计算系统。相关成果发表在PPoPP、ICA3PP等学术会议和TKDE期刊上。在国际ASF 以及Github上开源发布了Mammoth、GIRAFFE、SSDUP、Frog等系统。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

石宣化的其他基金

批准号:60973037
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:61772218
批准年份:2017
资助金额:66.00
项目类别:面上项目
批准号:60603058
批准年份:2006
资助金额:28.00
项目类别:青年科学基金项目

相似国自然基金

1

空间众包数据处理及其优化关键技术研究

批准号:61502021
批准年份:2015
负责人:童咏昕
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目
2

机载大孔径静态干涉光谱成像数据处理关键技术研究

批准号:61405203
批准年份:2014
负责人:景娟娟
学科分类:F0501
资助金额:25.00
项目类别:青年科学基金项目
3

物联网环境下视频大数据处理平台设计理论与关键技术研究

批准号:61300013
批准年份:2013
负责人:张海涛
学科分类:F0204
资助金额:25.00
项目类别:青年科学基金项目
4

点云数据处理中的最优化理论与方法

批准号:10701069
批准年份:2007
负责人:杨周旺
学科分类:A0503
资助金额:17.00
项目类别:青年科学基金项目