As personal cloud storage, a service designed for personal data synchronization, backup and sharing, becomes increasingly competitive, it is becoming increasingly important for the service provider to cut down the storage costs. Although the existing storage solution used now is able to meet the scalability requirements of personal cloud service, this kind of general storage solution is clearly not competitive. In this research, we will address three of the most important challenges of applying existing general storage solution for personal cloud including extra overhead brought by complex storage hierarchy, low disk throughput for random read and low space utilization of replica-base fault-tolerant mechanism. Several novel technologies that exploit workload properties of personal cloud storage service will be studied to improve cost performance ratio and space utilization, including physical device-based data organization, special designed read/write scheduling policy and space efficient hybrid fault-tolerant mechanism based on both erasure code and replica. The aim of this research is to lower the cost and enhance the competitive ability of enterprises through improving the single data node performance.
随着面向个人数据同步、备份的个人云存储作为一种新的数据存储模式被越来越多的用户认可,相关领域的竞争也日趋激烈。虽然现有的存储解决方案能够满足这类服务对于后端存储可扩展性的要求,但在残酷的竞争下这种通用解决方案并不占优势。本项目旨在依托通用硬件平台的成本优势,解决目前通用解决方案直接应用于个人云存储时存在的"存储层次多开销大,纯随机读写吞吐率低,以及副本容错机制空间利用率低"等问题,研究如何利用"数据热点明显,降温很快,顺序写为主和纯随机读为辅"的负载特征,充分利用这类服务"时延不敏感,响应时间要求相对宽松"的优势,针对性地优化数据中心后端存储节点。通过采用基于物理设备的数据组织,设计针对性的读写调度策略,以及实现基于副本和纠删码的混合冗余机制等手段,达到改善存储节点性能和提高空间利用率的目标。以期通过提高单设备性能的努力,达到变相降低企业成本,提高企业竞争力的目的。
本项目旨在研究如何利用个人云存储系统的负载特征优化后端存储节点,达到改善存储访问性能的目标。自2013年项目启动以来,主要围绕三个方面开展了研究工作: .在数据组织方面, (1)针对个人云存储的内容寻址系统的碎片化问题,提出了一种通过牺牲一定的去重率,有效地降低个人云存储系统中碎片化程度的方法。实验表明,该方法能减30%~50%的碎片化数据,读取性能提升幅度在12%~60%之间,冗余写入数据量对去重率的影响可限制在1%~2%;(2)针对内容寻址系统的索引瓶颈问题,提出了一种通过在索引系统中引入少量的冗余,减少索引预取次数,进而提高读写性能的方法, 该方法能够减少30%~50%的索引预取次数,同时写入带宽提升幅度可达6%,读带宽增长8%~24%;(3)针对多副本数据存储系统中数据组织方式的变换问题,提出了一种高效节能的数据再组织方式Chameleon,该方法的巧妙之处在于将数据再组织的过程打散到新数据写入过程中,充分利用了日志盘顺序写之外的空闲带宽;实验表明,较传统的再组织方式, Chameleon都能够提供更高的写入IOPS、更低的能耗。.在文件同步机制方面,(1)提出了一种基于元数据状态的文件同步方法,提高了文件同步系统中同步中心服务器的并发处理能力。(2)提出了一种多设备文件同步的重命名处理方法,有效地解决了同步过程中的处理重命名的复杂性、减少重命名相关的数据传输量。(3)提出了文件同步系统中向量时钟的一种实现方法,有效地解决了基于向量时钟进行冲突检测和处理机制中,如何标识客户端以及如何有效的表示向量时钟的问题。(4)基于上述同步算法和机制,我们研发局域网多设备文件同步软件“自同步”、“同步+”和家庭数据中心原型系统。.在负载分析方面,我们(1)开展了个人云存储内容寻址系统的负载分析工作,重点关注去重率、索引缓存命中率、索引预取次数四个指标,得出了后继工作有指导意义的若干关键结论;(2)研究了数据中心大数据系统负载特征,分析四种典型的大数据负载的读写带宽、设备利用率等指标,得出有意义的结论。此外,作为扩展研究,我们还对相变存储器的写优化进行了探索, 提出了一种动态写综合的方法。.本项目共申请发明专利5项,在国际会议上发表论文3篇,完成学位论文1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
氯盐环境下钢筋混凝土梁的黏结试验研究
一种改进的多目标正余弦优化算法
面向数据中心负载的本地存储系统能效优化技术研究
面向数据中心混合负载的数据存储结构及其转换技术研究
面向大数据备份的重复数据删除关键技术研究
面向云数据中心节能降耗的网络优化控制技术研究