When distributed file system managing big data, it also brings massive parallel data transmission that may lead to regional network congestion and imbalanced usage. .Research has found that, the chunk selection strategy employed by distributed file system can be optimized. The key point is to measure the network status of a distributed system in a real-time manner, and to choose reasonable data node in response to each incoming read/write request. .To prove this idea, this project proposes DFS-NetEye, a network measurement and scheduling system. We explore the possibility of building an open scheduling algorithm test framework, as well as establishing network workload evaluation architecture.
分布式文件系统在管理海量数据的同时,也带来大量并发的网络传输,容易引发或加剧局部网络的拥塞,进而导致数据中心内部网络的不均衡使用。研究发现分布式文件系统读写操作中所采用的数据块选择策略,存在较大的优化空间。关键问题在于如何让系统实时感知其所处网络的状况及变化,在挑选目标数据节点时避开拥塞的网络区域,从而确保网络资源的负载均衡。为证明此设想,在不改变HDFS高容错性和高吞吐量等已有特性的情况下,研发网络度量框架DFS-NetEye,探索读写调度算法通用测试框架,尝试建立网络负载均衡评价体系。
为充分利用所有节点的存储资源以提供超大吞吐量的数据处理服务,也为了在部分节点或网络发生故障时不丢失数据,数据中心越来越多地部署了分布式文件系统,并在此基础上运行着大型数据处理任务。分布式文件系统快速并发地处理着海量的数据,同时也占用了海量的带宽资源,容易引发或加剧局部网络的拥塞,进而导致数据密集型集群内部网络资源的不均衡使用。迫切需要提升分布式文件系统读写操作的网络效率,更均衡地使用网络资源,更高效地管理海量数据集。.本项目研究基于网络度量的分布式文件系统读写调度关键技术,研究如何在名字节点和大量数据节点组成的集群上,让每一个节点都能快速感知周边网络的状况及变化,并据此优化读写操作中的节点选择与路径规划技术,从而更均衡合理地使用网络资源。.本项目按计划顺利执行完成,主要研究三个方面的内容。首先,研究基于分布式文件系统读写调度关键技术,构建网络度量与调度子系统DFS-NetEye。其次,提出了基于端到端可用带宽的度量技术,从理论模型、模拟仿真、到依托计算机集群资源开展实验,验证了技术的可行性。然后,深入拆解了以HDFS为代表的分布式文件系统,把网络度量与感知技术加入到了分布式文件系统的实现中。.项目组的研究取得了两个重要结果,分别是基于主动探测机制的端到端网络度量技术和基于网络度量技术的DFS-NetEye。随着大数据处理需求的快速增长,分布式文件系统的网络均衡性问题将会受到越来越多的关注,各种调度算法都有可能出现,每种算法都有其最佳使用场景和不适用的极端情况。为减少重复工作,也为了让调度算法的研究更便捷高效,项目组分类整理了适用于中小规模集群的测试数据集。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
含饱和非线性的主动悬架系统自适应控制
城市生活垃圾热值的特征变量选择方法及预测建模
基于卷积神经网络的JPEG图像隐写分析参照图像生成方法
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
网格文件系统关键技术研究
分布式闪存文件系统的高效构建技术研究
分布式设备多目标协同制造的网络综合调度关键技术研究
分布式文件系统通用化性能评测与缓存调度方法研究