Distributed File Systems (DFS) form the foundation of distributed computing and become the cornerstone to a wide range of big data applications. Understanding and optimizing the performance of DFS are very important to the DFS users, developers and researchers. For DFS performance evaluation, existing tools mainly focus on certain testing aspects, and the coverage is limited. There lacks an extensible, easy-to-use and unified DFS performance evaluation framework. For cache policy scheduling, existing DFS can hardly adopt suitable cache policies according to the variation of the application data access patterns in run time. Therefore, this project first aims to research the key technologies on unified performance evaluation for DFS. We will study the unified abstract DFS interfaces, abstract test case models, test case designs and automatic generation, and the large-scale concurrent testing framework. With these problems solved, we build a highly scalable, easy-to-use, unified DFS performance evaluation framework. Then, to resolve existing DFS cache policies' little awareness for data access pattern variation in run time, this project will study adaptive cache policy scheduling mechanisms based on the machine learning models and sliding window technics.
分布式文件系统构成了分布式计算的基础,是如今日益发展的大数据应用的重要支撑。充分了解和优化分布式文件系统的性能对上层用户、分布式文件系统的研究者和开发者都非常重要。在性能评测方面,现有的分布式文件系统性能评测工具大都侧重于特定功能测试,覆盖面有限,缺乏一个可扩展易用的通用化性能评测框架;在缓存调度方面,现有分布式文件系统难以根据应用数据访问模式的变化合理选择缓存策略。为此,本课题将首先研究分布式文件系统通用化性能评测的关键技术方法,拟从分布式文件系统的通用化抽象接口模式、抽象评测用例模型设计、评测用例设计与自动化生成、大规模并发评测框架四个层面,着力研究解决上述问题,最终构建一个高度可扩展的、易用的通用化分布式文件系统评测框架;然后,本课题还将针对现有分布式文件系统缓存策略调度对数据访问变化感应不足,研究提出基于机器学习模型和滑动窗口技术的自适应调度方法。
分布式文件系统处于大数据技术栈的基础地位,在众多领域行业的大数据应用中发挥着重要作用。性能评测与优化是分布式文件系统的重要研究内容,具有较强的理论意义和应用价值。本项目中我们研究了分布式文件系统的性能评测与缓存调度优化问题:首先研究提出了一个通用的、高度可扩展的、易使用的分布式文件系统测试框架。该测试框架支持通用化抽象接口、抽象评测用例模型、评测用例内置与自动化生成,以及大规模并发评测框架;基于性能测试框架剖析性能问题后,进一步研究设计了一套面向层次化分布式文件系统的通用化缓存调度框架;最后,针对现有分布式文件系统缓存策略调度对数据访问变化感应不足的问题,研究提出基于机器学习模型和滑动窗口技术的自适应调度方法。项目中提出一些系列关键技术,从而实现了文件系统性能评测通用化、高精准与缓存加速高效化、自适应的效果。分布式缓存优化相关的成果应用于数据回放查询、分布式图计算等领域取得显著性能提升。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
拥堵路网交通流均衡分配模型
DFS-NetEye: 基于网络度量的分布式文件系统读写调度关键技术研究
面向应用特征的分布式文件系统性能及建模研究
基于能耗感知与动态性能评测的虚拟机部署方法研究
机群文件系统小文件I/O访问性能优化方法研究