The deduplication in Cloud storage is the key part of cloud storage, which can reduce storage utilization tremendously, save resources. Thus, it has important theoretical meaning and also a lot of practical values. Cloud storage always contains hundreds of storage nodes. It is an unsolved problem that how to do deduplication in such a big cluster. The key of deduplication in cloud storage is data layout strategy. This project do the following: 1) How to get semantic information, present the data routing algorithm based on semantics, try to assign the similar data to the same node, and improve deduplication rate 2) Research on evaluation method of nodes' load, propose adaptive data routing algorithm, improve deduplication rate and also ensure good throughput. 3) Research on the strategy of choosing multiple features and the synchronization between multiple nodes, propose the data routing algorithm based on multiple features, solve the problem of overload, and improve deduplication rate and utilization rate of system resources.
重复数据删除可以大量的缩减需要存储的数据量,节约存储资源,是云存储和云备份研究的关键问题之一。因此,具有重要的理论意义和广泛的实用价值。云存储包含数千个节点,如何在如此大的集群上做重复数据删除,是一个没有被有效解决的问题。云存储中的重复数据删除的核心是数据布局策略。项目研究如下内容: (1)研究语义的获取方法,提出基于语义的数据路由算法,尽可能地把相似的数据分配在同一个节点上,从而提高重删率。(2)研究节点负载的评估方法,提出自适应的数据路由算法,在保证吞吐量的同时,提高重删率。(3)研究多特征的选取策略和多节点之间的协商机制,提出基于多特征的数据路由算法,解决节点过载问题。提升重删率和系统资源的利用率。
随着社会信息化程度的提高和企事业单位对信息系统依赖性的增强,信息系统的容灾备份成为灾难发生时确保业务连续性和数据可用性的重要手段。企业数据备份对数据存储的巨大需求使得数据中心面临着巨大的挑战。重复数据删除可以大量的缩减需要存储的数据量,节约存储资源,是云存储和云备份研究的关键问题之一。虽然以分布式文件系统为核心的云存储系统解决了海量数据存储问题,但是研究表明,存储系统中存在大量的重复数据,而传统的数据保护技术如周期性备份、版本文件系统、快照和连续数据保护等更是加速了重复数据的增长,通常备份存储系统中90%以上的数据是重复数据,导致网络带宽和存储空间资源紧缺以及数据管理成本的快速上升。为了抑制数据过快增长、提高存储空间资源利用率、降低成本,重复数据删除技术己经成为一个备受关注的研究课题。因此具有重要的理论意义和广泛的使用价值。云存储包含数千个节点,如何在如此大的集群上做重复数据删除,是一个没有被有效解决的问题。云存储中的重复数据删除的核心是数据布局策略。项目研究如下内容:.(1)研究块查找磁盘瓶颈问题,大规模重复数据删除的数据块索引非常庞大,无法完全放在内存中,必须放在磁盘上。频繁的从磁盘访问数据块索引会导致严重的性能瓶颈,这就是块查找索引磁盘瓶颈问题.(2)研究语义的获取方法,提出基于语义的数据路由策略,将语义相似的数据尽可能的路由至同一节点,从而提高整个系统的重复数据删除率。.(3)研究基于多特征的数据路由算法。通过使用多特征,即选择数据段中的多个数据块的哈希值,确定多个节点,由这些节点协商决定目标节点,从而在提高重删率的同时,避免节点的过载。.(4)研究自适应的数据路由算法,采用自适应的数据路由算法结合有状态路由和无状态路由各自的优势,根据系统的实时负载情况,动态地选择有状态路由或无状态路由,平衡节点的负载开销与重删率的矛盾,提升系统的整体性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
湖北某地新生儿神经管畸形的病例对照研究
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
云存储系统中重复数据删除技术研究
重复数据删除存储系统的数据重构性能和能效研究
云存储中外包数据确定性删除方法研究
面向大数据保护的高效能重复数据删除存储关键技术研究