As cloud computing is moving forward rapidly, cloud providers have been encountering great challenges: long tail latency, low utilization and high interference. They intend to co-locate multiple workloads on a single server to improve resource utilization. But the co-located applications suffer from severe performance interference and long tail latency, which lead to unpredictable user experience. To meet these challenges, industry and research have devoted much efforts to software stack optimization with the problem still unresolved. This study will make a research on guaranteeing the QoS of cloud application based on hardware-software co-designing. There are three key points: 1) To address the semantic gap between hardware and software, we will study an explicit programming model to define application QoS requirement. 2) To address the performance interference between different applications, we will study a cloud application performance interference tracing method based on full path monitoring. 3) To address resource management, we will study a dependency-aware hardware-software co-designing resource management mechanism.
当前云环境下,数据中心规模不断扩大而资源利用率却非常低,为此通常将多种负载部署在同一套硬件环境以提高资源利用率,但共享资源的负载之间会产生性能干扰,甚至严重的长尾延迟现象。已有工作在软件层做了大量优化以保障云应用服务质量,但仍无法有效解决问题。本课题拟研究一种软硬件协同的云应用服务质量保障方法,通过利用底层硬件暴露的QoS管理机制,细粒度管理底层资源,保障云应用的服务质量。研究内容分为3个方面:1)针对软硬件之间存在的语义鸿沟问题,研究一种云应用服务质量可定义的显式编程模型;2)针对云应用性能干扰问题,研究一种基于全路径监控的云应用干扰追踪方法;3)针对细粒度资源调度问题,研究一种依赖感知的软硬协同资源调度方法。
云计算数据中心一直以来面临资源利用效率过低的困扰,带来了极大的资源浪费,而另一方面,通过在离线应用混合部署拉高整体资源利用率,又会造成在线应用性能波动,严重影响用户体验。如何能够在保障在线应用用户体验的同时,提高数据中心整体资源使用效率,一直以来都是云计算公司需要面临的关键问题。造成这种现象的根本原因就是资源共享,包 括体系结构层次的CPU核、Cache、访存带宽、网络带宽等以及系统软件层次的后台守护作业、监控作业等。因此需要从硬件上改变资源的“无管理共享”现状以实现在体系结构上支持应用服务质量保障。本项目的主要研究内容即针对数据中心资源利用率与服务质量无法调和的根本性挑战,设计并实现一套软硬件协同的云应用服务质量保障方法,主要研究成果如下: .1)首次提出标签化冯·诺依曼体系结构(Labeled von Neumann Architecture,LvNA),创造性地通过标签机制纵向打通云计算系统栈,实现云计算软硬件各层之间有效联动,实现关键应用全链路服务质量可保障,进而整个云计算系统有序可控。LvNA相关工作发表于JCST、FITEE、CARRV等国内外知名会议期刊,标签优化技术及思想在海思服务器CPU,麒麟手机CPU中落地,国内首次受邀ARM Research Summit 2018做三个大会主题报告之一,受邀2019 SIGARCH Visioning研讨会做主题报告。.2)提出一套动态资源软件调控机制与策略,深入剖析了阿里巴巴数据中心负载特征及资源瓶颈,提出基于多层感知网的应用资源动态调节模型Magi,单节点监控调整工具Autopilot,于阿里神马系统落地,同时归入阿里开源项目OpenKruise。团队获得阿里巴巴最佳合作奖。.3)实现一套基于Kubernetes的数据中心动态资源管控原型系统,主要针对 Serverless 场景的 QoS 保障通用管控框架,通过封装多种硬件源调控机制,兼容多种 QoS 资源调整策略,根据用户 QoS 需求动态保Serverless 应用性能。相关设计及实现先后获得腾讯、美团等云计算公司关注,并进一步开展科研合作尝试于其生产环境落地。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
氯盐环境下钢筋混凝土梁的黏结试验研究
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究
系统芯片集成的软硬件协同设计方法研究
情境感知的云服务质量协同预测与个性化推荐研究
面向云环境的协同安全保障模型与技术研究