基于多维数据关联分析的高能物理计算平台智能运维技术研究

基本信息
批准号:11805226
项目类别:青年科学基金项目
资助金额:28.00
负责人:胡庆宝
学科分类:
依托单位:中国科学院高能物理研究所
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:崔涛,姜晓巍,杜然,郑伟,程振京,张文韬
关键词:
海量数据处理数据可视化集群监控机器学习日志分析
结项摘要

With the expansion of the calculation scale of high-energy physics experiment, the environment of high-energy physics computing platform is increasingly complex, and the stability of platform operation is affected by more and more factors. Network environment, system environment, storage system, job scheduling, and even the operation mode of experimental physical job may affect the stability of high-energy physics computing environment. How to evaluate the running status of the platform based on the global monitoring information, timely find the exception event and locate the trigger, become an urgent need for the operation and maintenance of high energy physics computing platform. This project will use data acquisition, data processing, machine learning, data index technologies, converge multi-dimensional monitoring information, establish a multidimensional fault model with network, system, storage and scheduling factors by offline correlation analysis. Monitoring high-energy physics computing platform running status and intuitive display, through this model and historical fault determination rules.

随着高能物理实验计算规模的扩大,高能物理计算平台环境日益复杂,平台运行的稳定性受到越来越多因素的影响。网络环境、系统环境、存储系统、作业调度,甚至实验物理作业本身的运行方式等都可能影响高能物理计算环境的稳定性。如何全面获取监控信息,综合评估计算平台运行状态,及时发现计算环境中的异常服务并快速定位诱发原因,成为当下高能物理计算平台运行维护的迫切需求。本项目结合数据采集、大数据处理、机器学习、海量数据索引等技术,整合多维度集群运行相关数据信息,通过对异常事件及相关数据的离线关联分析,对网络、系统、存储、作业调度等维度建立异常特征模型,结合现有异常决策规则,对计算平台进行多维度监控展示和及时告警。

项目摘要

随着高能物理实验计算规模的扩大,高能物理计算平台运维环境日益复杂,平台服务运行质量面临较大影响。另外,面向不同系统的监控工具种类繁多,功能相对重叠且各系统监控数据相对孤立,无法形成整合进行统一分析挖掘,运维效率低下。.本课题主要结合大数据、机器学习、流处理等技术,采用数据采集、分析、存储、展现等完整流程,设计实现计算平台统一的监控数据运维分析系统。全面采集计算平台设施监控、计算服务、数据访问、网络安全等各维度基础运维数据,通过关联分析和数据建模等方法形成平台运维专家知识库,基于异常特征快速定位故障原因,发送告警信息,反馈和调整作业调度策略,提高计算平台运行质量。.该课题设计部署了一套可广泛应用计算平台智能运维系统,实现了运维监控从数据持久化,统一化到数据业务化、生态化的价值演进,完成了平台日常运维中故障发生、故障发现、故障识别、联动反馈、故障止损、根因分析、丰富故障特征库等完整的闭环流程,解决了大规模计算平台日益复杂的运维难题。.该运维系统与高能物理计算平台作业调度系统相结合,设计部署了计算资源自动化管理系统,实现了异常节点自动移除资源池,新增设备自动加入资源池等功能,提升整体资源利用率。运维系统与高能物理计算平台数据存储系统相结合,设计部署了用户作业异常io行为检测系统,快速采集集群作业io行为特征指标,对比历史作业io特征,通过孤立森林算法查找异常特征的用户作业,向平台运维人员告警。另外,该系统与机房基础设施管理、云计算虚拟化、网络安全检测方向深度融合,设计开发了面向不同业务场景的监控数据分析和运维管理系统,取得了良好的应用效果,实现了基于数据驱动的高能物理计算平台智能化运维生态。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

胡庆宝的其他基金

相似国自然基金

1

动车组监测数据分析与智能运维关键技术研究

批准号:61873201
批准年份:2018
负责人:穆凌霞
学科分类:F0308
资助金额:66.00
项目类别:面上项目
2

高能物理数据分析的Hadoop/HBASE平台研究

批准号:11375223
批准年份:2013
负责人:孙功星
学科分类:A2804
资助金额:92.00
项目类别:面上项目
3

虚拟化平台上的高能物理离线数据处理技术研究

批准号:11305192
批准年份:2013
负责人:黄秋兰
学科分类:A2806
资助金额:29.00
项目类别:青年科学基金项目
4

高能物理离线数据处理虚拟计算资源管理技术研究

批准号:11605223
批准年份:2016
负责人:李海波
学科分类:A2804
资助金额:24.00
项目类别:青年科学基金项目