With the rapid development of cloud computing, cloud-based distributed applications are more and more used to provide various online services. However, cloud-based applications commonly have many components, complex dependencies, and frequent updates, which increase the probability of anomaly and the difficulty of anomaly diagnosis. Existing studies do not consider applications’ features and run-time status, so cannot collect sufficient necessary information for analysis; do not correlate logs across multiple tasks, layers and nodes, so cannot infer the execution trace for each task; do not consider the behaviors of anomalies in different layers, so cannot locate the root causes of anomalies in a fine granularity. To address the above issues, this project uses machine learning technologies to study the record and enhancement of logs, the analysis and mining of logs, the characterization and recognition of anomalies, and the detection and diagnosis of anomalies for cloud-based applications. Concretely, this project involves recording logs with static defect prediction and dynamic anomaly estimation, mining execution traces by correlating multiple logs, and diagnosing anomalies based on inferring execution traces and recognizing anomaly patterns. This project plans to implement a prototype, uses our real cloud computing platform and typical cloud-based applications to validate the proposed theories, methods and technologies. This project aims at efficiently recording logs, effectively analyzing traces and accurately locating the root causes of anomalies to provide the theoretical basis and technical support for reliable cloud-based applications.
随着云计算技术飞速发展,基于云平台的分布式应用软件广泛用于提供多样化的在线服务,然而云应用组件众多、依赖复杂、更新频繁等特点增加了异常发生的风险和诊断的难度。当前研究未充分考虑应用软件的自身特征与运行环境,难以有效获取运行状态;未关联跨节点并发任务日志,难以全景还原执行踪迹;未考虑异常在各层次的表现形式,难以准确定位问题的根本原因。针对以上问题,本项目以机器学习为主要技术,研究云应用的日志记录与增强、日志分析与挖掘、异常刻画与识别、异常检测与诊断等问题。研究内容主要包括:基于缺陷预测与异常评估的自适应日志生成方法、基于日志关联分析的执行踪迹推断方法,基于执行踪迹模式识别的异常诊断方法等。提出相应技术体系,建立实验原型系统,并结合典型云应用与云平台对提出的理论、模型、方法和技术进行验证与评价,为实现具有高可靠、高可用、可持续提供高质量服务的云应用提供理论依据与技术支撑。
随着云计算技术飞速发展,基于云平台的分布式应用软件广泛用于提供多样化的在线服务,然而云应用组件众多、依赖复杂、更新频繁等特点增加了异常发生的风险和诊断的难度。当前研究未充分考虑应用软件的自身特征与运行环境,难以有效获取运行状态;未关联跨节点并发任务日志,难以全景还原执行踪迹;未考虑异常在各层次的表现形式,难以准确定位问题的根本原因。针对以上问题,本项目以机器学习为主要技术,研究云应用的一体化日志监测、自主化配置分析与挖掘、智能化异常诊断等问题。研究内容主要包括:云应用执行踪迹的日志监测方法、基于日志关联分析的云应用配置异常诊断方法、基于执行踪迹的云应用异常诊断方法等。提出相应技术体系,建立云应用执行踪迹异常诊断原型系统,并结合典型云应用与云平台对提出的理论、模型、方法和技术进行验证与评价,为实现具有高可靠、高可用、可持续提供高质量服务的云应用提供理论依据与技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
特斯拉涡轮机运行性能研究综述
面向云工作流安全的任务调度方法
基于全模式全聚焦方法的裂纹超声成像定量检测
基于图卷积网络的归纳式微博谣言检测新方法
云计算服务异常检测关键技术研究
基于类别分布感知的金融异常发现与推断
基于多源监测数据融合的云平台故障诊断关键技术研究
卫星执行器驱动信号符号故障的诊断与容错控制技术研究