The in-depth analysis reveals that the overall performance of clustered storage is still restricted by secondary storage such as hard disks. Clustered memory constituted from available DRAM via high-speed network can accomplish high-IOPS, low-latency data accesses, thereby potentially boosting the access performance of clustered storage. Focusing on both fault-tolerance and data organization technical challenges occurred in clustered memory, this project proposes a log-structured erasure-coded memory cluster scheme, where a large-capacity storage pool is created by data segmentation, encoding and distribution, using pre-allocated memory of nodes in storage clusters. Furthermore, in order to achieve data durability, data and its replica are respectively placed on memory and disk by employing replication-declustering mechanism. Theoretically, a clustered memory framework is constructed, both fault-tolerance mechanism and data organization strategy is investigated for clustered memory, and its reliability model is built. Technically, a set of key techniques and schemes are designed for clustered in-memory storage, including declustering-based data layout, pipelined high-performance in-memory data recovery, log-structured highly-efficient in-memory data organization, and log-segment-based memory defragmentation schemes.. This project is aimed to investigate a in-memory cluster featured with high-efficiency and high-reliability, and its prospective research results may not only deepen the memory-level fault-tolerance mechanism, but also provide valuable technical cases for the performance optimization of clustered storage.
分析发现,现有集群式存储的整体性能仍受限于磁盘等外存设备。利用高速网络和节点空闲内存构建的集群式内存能够提供高IOPS、低延迟的数据访问,有助于提升集群式存储的访问性能。针对集群式内存的内存数据容错和内存数据组织挑战,本项目提出一种基于纠删码、采用日志结构的集群式内存方案,通过数据分段、编码、布局等方式,将集群中多个节点的空闲内存构建成一个大容量内存级空间,并按副本散布机制来放置内存数据和外存副本,获得数据持久性支持。理论上,构建集群式内存存储框架,研究其数据容错机制和数据组织策略,建立集群式内存可靠性模型;方案上,研究一组关键支撑技术,包括基于副本散布的内外存数据布局、基于流水线的内存数据恢复、基于日志的内存数据组织和基于日志分段的内存碎片回收方案等。. 本项目旨在研究一种高效、可靠的集群式内存方案,其预取成果将丰富内存层数据容错研究,并为优化集群式存储提供方案借鉴和技术参考。
鉴于大数据处理的多样性,目前出现的多种计算模式(如,大数据查询分析计算、图计算、内存计算等)对数据存储提出一个共性要求——让数据更加接近计算。本项目结合当前高性能计算系统架构,建立了一种分布式纠删码内存系统框架,即,Proxy节点充当内存系统的应用服务器,为前台用户提供访问接口;Proxy节点、Coordinator节点和内存节点组成三方架构,支持带外通信,构建出一个大容量集群式内存系统,为前提用户提供透明的、可靠的内存访问空间。其中,Coordinator节点负责管理所有元数据信息(包括分块的分布和组织、纠删码条带的组织、分块访问信息的管理等),Proxy节点和内存节点之间提供内存级数据访问。在纠删码内存系统框架的基础上,结合考虑了数据容错性、访问倾斜性、访问局部性、负载均衡性、访问异构性等多方面因素,本项目研究了多种内存数据组织策略和管理方案,包括一种异构感知的纠删码归档方法LEAP、一种基于预取机制和平衡策略的归档优化方案PBArch、一种纠删码内存系统中智能数据放置策略WPS、一种针对通用写的混合式更新方案Hybrid-U、一种访问热度感知的冗余管理方案PaRS和一种流量感知的内存数据副本放置策略ERP/TEA。上述研究以数据编码和数据访问作为研究切入点,同时充分考虑网络、内存、外存等组件的特性,结合‘大容量内存级空间’这一需求来研究集群式内存的容错机制和数据组织策略,旨在设计一种高空间效率、高访问性能的内存级数据存储方案,为‘大容量的热点数据集’提供高可靠内存级空间,进而为大数据分析和处理提供有力的支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向非欧几何数据的分布式内存数据库存储方法研究
内存数据库容错关键技术研究
内存集群环境下的实时数据处理
面向分布式迭代数据处理的高效容错机制