Big Data, big traffic and high concurrency are the main feathers in the Cloud Computing. Distributed KEY-VALUE storage system has been becoming the alternatives of traditional relational DB for massive structure data in Cloud Storage. The project solves query capability and query efficiency problems under Cloud Computing background for KEY-VALUE storage system. The research includes three parts: the global optimal query path selection mechanism for Cloud Computing; working-load aware multi-layer cache structure design; and efficient I/O method for indexing management in KEY-VALUE storage system. It is the goals for this project to build an on-line storage and analysis platform for massive structure data in Cloud Computing.
大数据、大流量、高并发是云计算的主要应用特征。分布式键值存储系统已经逐步取代传统关系型数据库,作为海量结构化数据的云存储平台。课题解决键值存储系统在云计算环境中查询多样性差、查询效率低的问题。研究内容包括面向云环境的全局最优查询计划选择机制;基于工作流感知的动态多层缓存结构设计;以及面向键值存储系统的高效索引数据存取、组织技术等,课题研究目标是建立面向云计算的海量结构化数据在线的实时存储、分析平台。
课题针对键值存储系统在云计算环境下所面临的查询多样性差、查询效率低等问题,以高吞吐率、低查询延迟的复杂云应用为研究背景,深入研究云计算环境下的查询优化技术。.课题把云计算中复杂的云应用概括为两大类:面向离线海量结构化数据管理与分析应用、面向流式大数据实时数据处理与分析应用。首先,课题针对离线大数据研究结构化数据分布式存储组织架构、研究面向主从模式的数据分区组织技术、研究基于SSD的索引分级组织与管理技术等,通过上述技术有效加速离线大数据精确查询计算效率,为复杂OLAP分析类业务提供加速基础。其次,课题针对在线流式大数据研究面向column-family模型的多维大数据聚合查询加速技术、研究基于聚类的有限误差直方图构建技术与误差估算方法、研究满足多查询模式一体化概要数据在线构建与维护技术等,结合相关估算理论与误差分析方法,课题所提出的方法可以为流式大数据提供高计算精度、低查询延迟的实时流数据处理与查询方法。.课题组设计并实现相关算法、数据结构,开发了分布式环境下的原型系统,并在百亿记录真实数据集背景与典型的大数据处理与分析系统进行比较。课题提出的离线数据分析方法,在百亿记录规模下比基于Hadoop的大数据分析系统(如Hive)提高4个数量级的查询效率;课题所提出的流式大数据处理与分析方法与基于内存计算的大数据分析系统相比(如Spark),提高两个数量级的查询效率。同时课题所提出的方法在系统吞吐率、查询延迟、存储效率等方面均具有明显的性能提升。.课题组发表6篇学术论文,申请4项国家发明专利,培养博士生2人,硕士生3人。课题财务支出符合国家规定,圆满完成申请书中的各项任务指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
硬件木马:关键问题研究进展及新动向
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
结核性胸膜炎分子及生化免疫学诊断研究进展
云计算环境下医学RDF大数据的分布式查询处理与优化技术研究
云环境下社交空间关键字查询处理与优化技术研究
键值存储系统架构设计与性能优化研究
云环境下大规模动态图数据查询处理与优化技术研究