In Exascale system, the global communication performance will be greatly decreased because of the increasing network diameter and the locality-oriented hierarchy network architecture. To accelerate the global communication, this project proposes an electrical/optical hybrid network design. The proposed hybrid network is different from the datacenter EPS (electrical packet switching)/OCS (optical circuit switching) hybrid network that is mainly designed for fat-tree topology and introduces milliseconds latency to the optical path. To meet the low communication latency requirement of HPC applications, instead of using OCS, we propose using the low latency and elastic bandwidth allocation emerging optical interconnection technologies in the large-scale direct network. However, as a frontier technology in the field of optical communication, the optical network is facing big challenges of the data buffering and multi-hop routing. To meet these challenges, this project proposes a method of co-designing the optical and electrical packet switching network: 1. the high bandwidth, low latency optical network is used to optimize the global communication of electrical network; 2. the buffering and one-hop forwarding in the electrical network are used to solve the buffering and multi-hop issues in the optical network. Based on the above design philosophy, the research will be carried out from four aspects: 1. locality-based network partition algorithm: to define the boundary between optical and electrical network; 2. optical packet switching network architecture: to co-design the architecture of optical and electrical network; 3. flow allocation algorithm: to transmit messages based on static characteristics of the hybrid network and messages; 4. optical/electrical boundary routing algorithm: to route messages based on dynamic characteristics of the hybrid network.
艾级计算机系统中,过高的网络直径和仅面向局部通信优化的网络结构,导致大规模直接网络面临全局通信性能大幅缩减问题。为提高网络的全局通信能力,本项目提出在高性能互连网络领域开展光电混合网络结构的研究。与面向数据中心胖树拓扑的光电混合网络研究不同,本项目将支持低延迟和高弹性的新兴光交换技术引入混合直接网络设计,以满足高性能计算对低延迟通信的需求。针对光交换技术所面临的网络冲突和多跳步问题,本项目拟提出一种光域、电域交换网络的协同设计方法和结构:使用高带宽、低延迟的光域网络弥补大规模直接网络的全局通信能力(性能);基于WDM和O-OFDM技术实现光域网络结构与通信需求的动态匹配(弹性);基于电域缓存和单次转发,解决光域网络缓存和多跳步问题(扩展性)。本项目从网络分区算法、光交换网络结构、流量分配算法和光电边界路由算法四个方面开展研究,解决光电混合网络的边界划分、协同结构设计和协同通信优化等问题。
高性能并行计算机是现代信息社会的核心基础设施,预计未来几年将会出现艾级(Exascale)计算机,系统规模达到100,000节点以上。作为高性能计算机支柱技术之一的高性能互连网络,是研制艾级计算机的关键技术之一。但由于网络维度的提升受到芯片封装工艺的限制,其网络直径会随着系统规模的增大而快速增加,全局通信性能面临挑战。. 当前不少研究提出了通过光电混合网络来弥补全局通信性能,然而面向高性能计算领域,目前的光电混合网络研究存在高延迟、低适用性、低灵活性等问题,而且不能满足直接网络拓扑需求。本项目将新兴光互连技术引入高性能互连网络领域,在探索光域、电域网络融合策略的基础上,针对大规模直接网络的特点,开展新型光电混合网络结构设计方法研究,在物理结构、协同路由、流量分配和光链路调度等方面取得不少进展,可有效提升高性能互连网络的灵活性和扩展性。.(1)基于新兴光互连技术的光网络体系结构:课题全面分析了光、电交换网络的优缺点和协同交换策略,基于AWGR和快速可调谐收发器提出了光电混合网络结构,提升了网络的扩展性和灵活性;.(2)光电协同路由算法:课题创新性地提出了光电协同路由算法,解决了传统电域网络引入光链路时可能引起的路由死锁问题。.(3)流量分配算法:课题重点研究了超算中典型应用的负载特征,提出了一种面向大规模网络的层次化调度算法,可根据实际应用特征和流量矩阵,快速获得最优的目标拓扑生成方法和流量分配算法。.(4)光链路调度:本课题基于哈密尔顿路径提出一种快速无中断多层链路调度算法,可大幅减少TCP报文乱序引起的丢包和拓扑重配置过程中引起的丢包,只需不超过3次中间拓扑过渡和路由策略的协同配合即可动态完成多种拓扑切换,大幅降低了丢包率。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
城市轨道交通车站火灾情况下客流疏散能力评价
基于细粒度词表示的命名实体识别研究
基于FTA-BN模型的页岩气井口装置失效概率分析
超大规模计算机互连网络的可靠性研究
面向大规模并行计算机系统的应用级检查点关键技术研究
脑网络启发的大规模神经形态系统片上互连结构综合
系统级封装互连的信号完整性问题研究