面向计算密集型的海量数据查询处理关键技术研究

基本信息
批准号:61100060
项目类别:青年科学基金项目
资助金额:22.00
负责人:丁晓锋
学科分类:
依托单位:华中科技大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:瞿彬彬,李支成,李丁丁,刘超,张磊,马潇,彭亚琼,徐慧,黄永
关键词:
海量数据不确定性数据计算密集型MapReduce查询处理
结项摘要

随着社会经济的迅速发展,面对海量数据的计算密集型查询处理需求日益增加,呈现出数据大规模、类型多样化、计算复杂化等特点。这些需求和特点都对传统的海量数据管理和查询处理方式提出了新的挑战。本项目以构建可靠、高效、低成本的大规模数据查询处理平台为目标,以大规模数据的存储、分布、索引、查询处理及用户接口等为研究重点,研究有利于在线数据高效查询和离线数据可靠备份的分布式存储体系结构、高效的大规模数据存取访问机制、大规模异构数据的索引管理机制、智能调度与任务管理机制以及面向用户的高效并行查询语言及新型编程模型等基本理论和关键技术,并为智能电网、电子商务等行业需要构建自适应性强、性能好的计算密集型应用平台提供基础。本课题的研究工作具有重要的理论价值和现实意义,将对大规模数据管理的基础理论与关键技术的研究起到重要推动作用,对其在航空航天、天文气象等国家重要领域的应用起到引导作用。

项目摘要

随着社会经济的迅速发展,面对海量数据的计算密集型查询处理需求日益增加,呈现出数据大规模、类型多样化、计算复杂化等特点。这些需求和特点都对传统的海量数据管理和查询处理方式提出了新的挑战。本项目以大规模数据的存储、分布、索引、查询处理等为研究重点,从海量数据的特点出发,提出了利用非结构化数据的子结构来设计面向计算密集型查询的索引结构和剪枝方法。具体的,在本课题的研究过程中,我们研究了三类典型的查询“字符串匹配查询”,“图匹配查询”和“多属性Skyline查询”。我们利用数据预处理、索引、过滤及提炼的框架进行字符串查询处理。在预处理过程中,引入了有效的数据结构——n-gram对字符串的特征进行提取,并设计出两层索引机制、剪枝算法TA和CA过滤不在查询结果之内的字符串,从而得到查询的候选结果集。基于该研究成果的论文已经被国际顶尖会议VLDB 2014录用并发表。同时为了解决图数据中的近似匹配问题,我们根据已有的框架结构,利用图的子结构特征创建了两层索引SEGOS,该方法可以增加剪枝的能力,但同时它也会增大查询过程中索引过滤的代价。在研究过程当中,我们动态的调整子结构的复杂度,以使得最终建立的索引达到最低的查询代价。基于该研究成果的论文已经被国际顶尖会议ICDE 2012以长文形式发表。大规模分布式系统中高效率数据访问与查询的关键因素是路由路径的选择, 而基本路由算法在实际应用中往往引起很大的通讯负担,特别是在大规模分布式系统中会产生网络堵塞。鉴于此,我们给出了一个分布式概率skyline 查询的处理框架,以及分布式概率 skyline 查询处理算法DSUD和e-DSUD,利用中央服务器提供的反馈信息,删除本地节点上不可能成为查询结果的数据,从而加速查询处理的时间并减少网络的通讯负担,基于该研究成果的论文已经被国际顶尖期刊IEEE TKDE发表。本课题研究过程中,我们已经在国内外期刊和会议上发表学术论文12篇,其中计算机学会推荐的顶级(A类)期刊/会议论文3篇,包括IEEE TKDE, VLDB, ICDE等。根据Google Scholar统计,本项目所发表的论文,目前已被国内外同行引用40余次。在人才培养方面,本项目总共培养研究生9名,其中包括博士3名和硕士6名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020

丁晓锋的其他基金

批准号:61472148
批准年份:2014
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

面向在线数据密集型应用的高效数据存储与复杂查询关键技术研究

批准号:61379055
批准年份:2013
负责人:张一鸣
学科分类:F0204
资助金额:75.00
项目类别:面上项目
2

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目
3

云计算中TB/PB级海量数据近似查询处理技术的研究

批准号:61272046
批准年份:2012
负责人:杨东华
学科分类:F0202
资助金额:80.00
项目类别:面上项目
4

云计算环境下海量数据查询优化与智能处理的研究

批准号:61173162
批准年份:2011
负责人:李克秋
学科分类:F0207
资助金额:58.00
项目类别:面上项目