With the rapid growth of the High Energy Physics(HEP) experiments data and the continuous expansion of cooperation scale, a single data center has been unable to meet the resource and cooperation requirements from experiments. As a result, it’s urgent to integrate resources across regions to expand the computing scale. However, HEP experiments using cross-border resources are troubled with high operation and maintenance costs, system instability and other issues. To address these issues, this project will focus on studies of the key technologies of cloud federation, firstly, propose the integration solution of cross-domain resources, adopt the loosely coupled modular design idea to make the resources, services and applications separated and achieve the sharing platform integrated cross-domain resources for HEP experiments; secondly, this project will propose a flexible resource scheduling strategy and a job scheduling policy based on share and priority to realize the resource expansion on demand and the efficient job scheduling across regions transparently, so as to improve the overall resource utilization; thirdly, this project will introduce the way of data federation to gain the global data management and index among different sites around the world; lastly, this project will establish federated certification and fine-grained user and resource access control to ensure security certification and fair sharing of resources among experiments. The project will greatly expand the computing resources, vastly promote the sharing of resources between experimental sites, and significantly increase the overall resource utilization, which plays a very important role in speeding up the data processing of HEP experiments and accelerating the output of high level physical achievements.
随着现代高能物理实验数据的快速增长和合作规模的不断扩大,现有的单数据中心已无法满足实验对资源和合作的需求,急需整合跨地域的资源以扩大计算规模。然而,目前高能物理实验利用跨域资源面临着运维成本高、系统不稳定等问题。为此,本项目致力于云联盟关键技术的研究,提出跨域资源的整合方案,采用松耦合模块化的设计思想,将资源、服务和应用分离,实现高能物理实验跨域资源的共享平台;提出跨域资源的弹性调度和基于份额与优先级的作业调度策略,实现资源的弹性扩展和跨域作业的透明高效调度,从而提高资源的整体利用率;采用数据联盟实现跨域数据的全局管理与索引;并实现安全联盟认证和细粒度的用户和资源权限控制,确保各实验合作组间的安全认证和资源的公平共享。本项目将极大的扩展计算资源,大大促进各实验站点间资源的共享,大幅提高资源的整体利用率,对加快高能物理实验数据处理过程和加快物理成果产出具有十分重要的意义。
随着高能物理实验计算规模的不断扩大和计算紧迫性的不断提高,现有的单数据中心计算资源紧张,计算集群中总出现大量作业处于排队状态。因此,十分有必要整合一切可利用的资源为高能物理实验数据处理提供强大的计算分析能力。云联盟是解决高能物理实验资源紧张,实现资源共享的有效手段。.本项目的主要研究目标是基于当前高能物理实验对跨域资源的迫切需求,研究面向高能物理实验的云联盟关键技术,研发一套跨域异构资源管理和调度的中间件,实现高能物理实验跨地域的异构资源整合和共享的平台,保证共享平台对用户透明,无需改变用户的使用模式(用户仍按以前的方式提交作业,而跨域异构资源管理和调度的中间件负责作业与资源的匹配,实现作业的透明高效的调度,提高资源的整体利用率)。.在项目研究期间,发表相关学术论文6篇,参加国内外学术会议3次。本项目取得了多项研究成果:.1、.以部署跨域云联盟系统稳定运行,统一纳管资源数增加到1万多核,云联盟系统增加了与华为云(12000CPU核)的适配,开发了面向华为云的管理接口;.2、.完成跨域云联盟基于web的统一访问接口的开发,该接口不仅可以为集群的统一调度提供服务,同时可以基于该接口提供面向个人用户的数据分析及可视化服务;.3、.完成基于 HTCondor 的跨域计算任务的调度。基于HTCondor-C组件将本地集群的SCHEDD与异地集群的SCHEDD连接,提供统一的作业入口。.4、.已完成跨域云联盟智能监控系统设计和部署,覆盖监控节点600多个,采集监控应用30多种,运行实时分析任务6个,涵盖节点性能、GPU属性、集群作业等多种监控分析任务。.5、.完成基于 CVMFS 和 VOMS 认证结合的实验软件管理和共享。通过 CVMFS 和 虚拟组织管理(VOMS)认证的结合实现对软件资源的自动访问权限控制。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
拥堵路网交通流均衡分配模型
低轨卫星通信信道分配策略
面向高能物理实验及信息化管理的云数据库服务技术研究及应用
面向高能物理分波分析方法的内存计算关键技术研究
基于SDN的高能物理云数据中心弹性网络关键技术研究与应用
面向高能物理数据共享网络的网络全局监测与优化关键技术研究