MapReduce技术被广泛的应用于很多大型的数据分析应用中。通过MapReduce框架,用户能够方便的开发分布式应用。但MapReduce批处理的实现机制,使得对海量数据的查询和分析,往往需等待很长时间才能得到最终结果,不利于交互式的数据分析。本项目拟针对这一问题,研究基于MapReduce的快速查询和分析的关键技术。在查询处理层研究查询操作的实时处理技术、效率估计函数和逻辑查询计划生成方法;系统层研究物理查询计划的生成和动态调整方法,以及快速MapReduce中的容错技术;结果展示层研究精简化、动态化和置信度量化的结果表示技术。还将针对数字图书馆的用户日志分析应用的特点,对MapReduce上增量式的查询分析展开研究。本项目对海量数据的分布式查询处理技术有着重要的学术意义;通过提高MapReduce应用响应时间,可以提升MapReduce的交互分析处理能力,具有实际应用价值。
在本课题的研究过程中,研究成果主要包含三个方面。.1、在详细分析MapReduce的源代码的基础上,通过修改MapReduce内核,设计并实现了Online MapReduce Aggregation系统。区别于传统的MapReduce执行过程,该系统能够在MapReduce执行过程中,不断地得到中间结果,这样方便执行人员能够不断地掌握算法执行结果,从而决定后续的结果是否需要。该成果发表于学生代克的毕业论文。.2、提出了一种基于MapReduce的聚类算法。算法提出了一种代表点的机制,通过将类似的点转换为代表点所表示的簇,从而大大降低k-means过程所涉及的点,从而提高了算法执行效率。该成果发表于CCF二区会议DASFAA 2014上。.3、提出了一种海量时间序列的索引技术。该方法一方面打破了已有方法中将时间序列降维和索引构建相隔离的机制,在索引构建过程中动态降维;另一方面同时提供了距离下界和上界的估计。该成果发表于CCF一区会议VLDB 2013上。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种改进的多目标正余弦优化算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于混合优化方法的大口径主镜设计
IL-6-miR-124-Jagged1反馈环介导肿瘤细胞与微环境TAM相互作用参与胰腺癌侵袭转移
Rac1-p38β-IL6 通路介导的MSCs 免疫调节能力异常在强直性脊柱炎发病机制中的作用研究
由锆系MOFs可控制备硫酸化氧化锆及其杂化材料的方法与Friedel-Crafts反应催化性能的研究
基于云计算和MapReduce的区域医疗大数据分析关键技术研究
基于连续数据空间的分析查询关键技术研究
大规模监测型时间序列历史数据的查询和分析关键技术研究
基于MapReduce的多准则分类方法研究