Latency-sensitive applications running on top of datacenter computers require extremely strict QoS guarantee for tail latency responding to user requests. However, the large scale, multiple staged request processing as well as dynamic behaviors of the underlying system have introduced significant amount of variability to the response time per request, which becomes a new challenge to guarantee the QoS of tail latency for datacenter operators. After analyzing the procedure of the request processing, this project proposes a top-down approach regarding the application layer, runtime layer and architecture layer to explore the technologies alleviating the tail latency for latency-sensitive applications. At the application layer, study the methodologies of latency aware request scheduling and resource allocation in order to select the nodes satisfying the QoS requirement, which eliminates the incompatible nodes dragging the tail latency; at the runtime layer, manage the priority and rate of the request accessing the system resources, mitigating the latency fluctuation caused by load and computation phase change; at the architecture layer, study the methodologies of architecture adaptive request scheduling, leveraging the advantages of architecture features to satisfy the QoS of tail latency in addition to improve the efficiency of datacenter system. Moreover, through the combination of latency alleviation technologies from different layers, holistic solutions are derived to guarantee the QoS of tail latency for latency sensitive applications.
数据中心延迟敏感型应用对请求尾端响应时延服务质量有着极其严格的要求,然而请求的大规模并发、多阶段处理和系统状态的动态变化,都对请求处理的响应时延带来不确定性影响,从而对请求尾端响应时延的服务质量保障带来了新的挑战。本课题以延迟敏感型应用请求处理过程为线索,自顶向下依次探索应用层面、运行时层面和体系结构层面的响应时延缓解技术。在应用层面研究延迟感知的请求调配方法,选择满足服务质量要求的节点调度请求,避免节点不匹配严重拖长响应时延;在运行时层面研究面向服务质量的运行时管理机制,在线管控请求对系统资源使用的优先级和速率,缓解负载水平和计算行为变化等因素对响应时延的影响;在体系结构层面研究体系结构自适应的任务调度方法,在满足服务质量要求的基础上发挥不同体系结构特性的优势,改善数据中心的运行效率。同时通过不同层面间响应延迟缓解技术的有机结合,实现尾端响应时延服务质量保障的系统性解决方案。
数据中心延迟敏感型应用对请求尾端响应时延服务质量有着极其严格的要求,然而请求的大规模并发、多阶段处理和系统状态的动态变化,都对请求处理的响应时延带来不确定性影响,从而对请求尾端响应时延的服务质量保障带来了新的挑战。本课题以延迟敏感型应用请求处理过程为线索,自顶向下依次探索应用层面、运行时层面和体系结构层面的响应时延缓解技术。在应用层面,研究了1) 多阶段应用的请求响应时延监控和瓶颈服务识别方法、2) 任务聚合下的GPU任务执行和数据传输建模方法、3) 细粒度GPU流多处理器资源模型;在运行时层面,研究了1) 功耗受限多阶段应用的自适应加速和功耗调整方法、2) 性能干扰感知的GPU应用聚合调度方法、3) 支持GPU资源预留和抢占的细粒度资源管理方法;在体系结构层面,1) 研究了改善应用线程并行度的GPU寄存器扩展方法、2) NUMA架构内访存延时平衡的内存分配方法、3) 适配申威众核体系结构的MapReduce计算框架。此外,还对性能瓶颈诊断工具开展了研究,包括1) 指导数据布局优化的轻量级评测工具、2) 针对大数据系统的性能瓶颈根源分析方法。通过不同层面间响应延迟缓解技术的有机结合,实现了尾端响应时延服务质量保障的系统性解决方案。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
敏感性水利工程社会稳定风险演化SD模型
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
SRHSC 梁主要设计参数损伤敏感度分析
双源全双工网络中面向时延服务质量保障的资源分配方法
软硬件协同的云应用服务质量保障方法研究
云数据中心网络的QoS保障方法研究
无线通信网络中面向多源异构业务的时延服务质量保障机制研究