多维气候大数据存储与处理关键技术研究

基本信息
批准号:61672312
项目类别:面上项目
资助金额:64.00
负责人:杨广文
学科分类:
依托单位:清华大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:张诚,甘霖,徐世真,何东标,何聪辉,赵晟,靳梦瑶
关键词:
数据索引多维数组大数据Hadoop查询处理
结项摘要

With the rapid development of scientific instruments and advances of research methods, climate change study has stepped into the big data era, posing great challenge to the research itself as well as data storage and processing. Bearing in mind the requirements of climate change related research, this project aims to address such shortcoming of existing systems for multidimensional array storage and processing as low efficiency query processing, high overhead of data indexing, long time taken by data loading and transformation, high storage consumption, and so on. Based on open-source frameworks such as Hadoop and Impala, the project will study: 1) query-oriented high-efficiency storage method of multidimensional array, 2) adaptive and distributed indexing of multidimensional array data sets, and 3) ways to support efficient SQL query over multidimensional array data. Based on the results, the project will also investigate system implementation as well as evaluation issues, develop a cloud-based multidimensional climate data storage and query-processing platform, and evaluate it with real data and application. We think the work would be a good reference for big data storage and processing in scientific fields. Also it could further the research and application of big data or even make progress in science.

科学仪器设备的不断发展和研究方法的持续进步促使气候变化的研究步入了大数据时代,给科学研究自身以及数据的存储和处理都带来了巨大的挑战。项目面向实际需求,针对当前气候大数据中多维数组存储和处理所存在的查询效率低、索引开销大、导入转换时间长、空间占用多等不足,结合开源的Hadoop、Impala等分布式存储和处理框架,探究针对查询处理的多维数组的高效存储方法、多维数组数据集的自适应分布式索引技术、面向多维数组的SQL查询支持与优化等关键理论和技术,在此基础上,进一步探究系统的实现技术和评估方法,开发完成一个多维气候大数据的云存储和查询平台,并进行实际应用评估。通过上述工作,为科学研究领域大数据的存储和处理提供良好的参考和借鉴,推动大数据研究和应用的进一步发展乃至科研的进步。

项目摘要

人类社会已经步入了大数据的时代,不断快速增长的数据给科学研究自身以及数据的存储和处理都带来了巨大的挑战。项目以气候大数据中多维数组存储和处理为出发点,针对当前科学计算应用中所存在的查询效率低、索引开销大、导入转换时间长、空间占用多等一般性问题展开研究,在照数据的高效存储、索引构建、高效计算以及系统构建与优化等方面取得了以下成果:.1)在数据的高效存储方面,结合开源的Hadoop和Hive,设计实现了面向多维科学数据的分布式存储与查询系统SciHive,解决了将多维数据高效映射成SQL关系数据表、存储空间压缩等技术难题,使得普通科研人员都可以非常方便的进行多维科学数据的大规模处理,真正实现了科学大数据处理的普及化;提出了基于异构副本的NoSQL数据存储方案uSQL,在保证数据安全和存储空间不变的前提下,能够获得多个数据库的性能优势,提⾼整个数据库查询的吞吐量。.2)在索引构建方面,在SciHive系统的基础上,为多维科学数据设计了一种可动态构建的自适应分布式索引;在uSQL的基础上,提出了支持多聚集索引的索引解决⽅案uIndex。通过这些工作,进一步降低了索引建立和使用的开销,提高了磁盘I/O的效率和数据库的吞吐量。.3)在高效计算方面,在神威·太湖之光平台上,针对排序操作,提出了基于并行划分的单核组和多核组快速排序并行化方案;针对AES算法,设计实现了向量化编程模型、核组间、核组内及指令并行优化策略。通过这些工作,充分发掘了SW26010处理器的性能,提高了计算效率。.4)在系统构建与优化方面,针对数据倾斜造成Hadoop运行性能下降的问题,提出了智能倾斜缓和及资源调度优化方案Skew--,减少了跨节点数据传输,进一步提升了系统性能;构建了遥感模型资源的云化管理原型系统,在线提供高效的遥感数据管理和处理服务。.项目成果为科学研究领域大数据的存储和处理提供了良好的参考和借鉴,有助于推动大数据研究和应用的进一步发展乃至科研的进步。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

杨广文的其他基金

批准号:61073165
批准年份:2010
资助金额:36.00
项目类别:面上项目
批准号:60173007
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:60573110
批准年份:2005
资助金额:25.00
项目类别:面上项目
批准号:60373005
批准年份:2003
资助金额:23.00
项目类别:面上项目

相似国自然基金

1

信息物理融合系统数据存储与查询处理关键技术研究

批准号:61100030
批准年份:2011
负责人:潘立强
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目
2

多维动态GIS空间数据处理关键技术研究

批准号:69833010
批准年份:1998
负责人:陈军
学科分类:F0214
资助金额:120.00
项目类别:重点项目
3

大数据存储评测优化与救援关键技术研究

批准号:61872043
批准年份:2018
负责人:宋莹
学科分类:F0204
资助金额:63.00
项目类别:面上项目
4

机载大孔径静态干涉光谱成像数据处理关键技术研究

批准号:61405203
批准年份:2014
负责人:景娟娟
学科分类:F0501
资助金额:25.00
项目类别:青年科学基金项目