云计算平台中大规模交互式服务长尾延迟消减关键技术研究

基本信息
批准号:61502451
项目类别:青年科学基金项目
资助金额:21.00
负责人:韩锐
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王俊威,高婉铃,田昕晖,陆刚,周撷璇
关键词:
长尾延迟云计算组件交互式服务性能干扰
结项摘要

Large-scale interactive services usually divide requests into multiple sub-requests and distribute them to a large number of server components for parallel execution. Hence the tail latency (i.e. the slowest component's latency) of these components determines the overall service latency. On a cloud platform, each component shares and competes node resources such as caches and I/O bandwidths with its concurrently executing batch jobs, thus inevitably suffering from their performance interference, which is often regarded as the major reason for component latency heterogeneity and variability as well as high tail latency. With the increasing size and complexity of services, high tail latency has emerged as the bottleneck for service performance and profit improvement, and it is the key challenge to be addressed in cloud application management. This project will focus on the tail latency problem of large-scale interactive services within the context of mixed workloads running in the cloud. The project will conduct a systematic investigation from three aspects: the quantitative description and prediction of performance interference, fine-grained component-level tail latency mitigation techniques, and a prototype system designed to verify the proposed techniques for applications in the key fields. Our study aims at technologies that ensure three properties in tail latency mitigation: predictability, precise controllability and high practicability. This project will be helpful for solving the key challenges in managing large-scale distributed systems in the cloud, enhance China's capability of independent innovation and promote the rapid development of cloud computing.

大规模交互式服务通常将请求切分到多个组件上并行执行,因此请求延迟取决于组件长尾延迟(即最慢组件的延迟)。在云计算平台中,组件与并发批处理作业共享和竞争节点资源如高速缓存和I/O带宽而受到性能干扰,是造成组件性能差异性和变化性及高长尾延迟的主要因素。随着服务规模与复杂度的增加,高长尾延迟已成为制约其性能和收益提高的瓶颈,是云平台应用管理的关键技术难题。本课题将围绕云计算混合负载运行环境下大规模交互式服务长尾延迟问题,从性能干扰定量刻画和预测、组件层次细粒度延迟消减技术、及面向重点领域应用长尾延迟消减验证原型系统三个方面,开展系统的研究工作;重点研究长尾延迟消减的可预测性、精确控制性、高可用性三个科学问题。课题研究成果将有助于解决云平台中大规模分布式系统管理的关键技术挑战,提升我国云计算自主创新能力,并促进我国云计算快速发展。

项目摘要

现今延迟敏感的交互服务往往依赖于大量并发服务器组件的对请求进行处理。因此,这些组件的长尾延迟(例如响应时间的第99百分点)而不是平均值决定了请求整体响应延迟。在云环境中,为了提升资源使用率,服务的组件通常与短时批处理作业共存,共享和竞争CPU处理器、缓存、I/O带宽等资源。然而,批处理作业工作负载类型和输入大小具有高度动态性,这会导致其对单个组件的性能干扰不断变化,从而造成它们的高长尾延迟。本课题从三个方面系统地研究长尾延迟的消减问题。首先,我们提出了一种基于性能干扰定量描述和预测的组件级调度技术PCS,用来降低延迟。具体来说,PCS使用分析性能模型预测组件延迟和不同节点上的服务的整体性能。根据预测的性能识别出瓶颈组件,并进行最优的组件节点调度,以适应批处理作业不断变化的性能干扰。使用真实工作负载的实验证明,与最先进的长尾延迟消减技术对比,所提出的调度技术将组件长尾延迟平均减少67.05%,将服务总体延迟平均减少64.16%。其次,我们提出了一种细粒度的组件级长尾延迟消减技术,称为CLAP,通过小精度损失的近似处理降低组件长尾延迟。具体来说,CLAP聚合输入数据的信息以创建小的聚合数据点。利用这些点,CLAP减少了并行组件的长尾延迟,并允许它们快速生成初始结果;CLAP还标识了与请求结果精度最相关的输入数据部分,通过首先处理这些部分来改进生成的结果,以最小化结果精度损失。我们使用真实服务和数据集评估了CLAP。结果表明:(i)与现有的精确处理技术相比,CLAP可以减少6.46倍的尾延迟,精度损失为2.2%;i i)当使用相同的延迟时,CLAP可以减少31.58倍的精度损失。最后,我们设计一个原型系统,以验证所提出的技术在关键领域的应用。同时开发了一个基准工具CloudMix,根据实际的工作负载日志生成广泛、具有代表性的云工作负载。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
3

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
4

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
5

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018

韩锐的其他基金

相似国自然基金

1

面向可信云服务的广义虚拟可信计算平台关键技术研究

批准号:61073156
批准年份:2010
负责人:沈晴霓
学科分类:F0205
资助金额:32.00
项目类别:面上项目
2

云计算服务异常检测关键技术研究

批准号:61272399
批准年份:2012
负责人:陈蜀宇
学科分类:F0205
资助金额:81.00
项目类别:面上项目
3

面向大规模云服务的服务流程自适应优化关键技术研究

批准号:61902269
批准年份:2019
负责人:梁合兰
学科分类:F0203
资助金额:25.00
项目类别:青年科学基金项目
4

基于云计算的虚拟实验平台关键技术研究

批准号:61202494
批准年份:2012
负责人:盛羽
学科分类:F0207
资助金额:24.00
项目类别:青年科学基金项目