The deep learning accelerator is increasingly critical to achieve intelligence in cyber physical applications. The general-purpose deep learning processors fail to meet the stringent energy efficiency requirement of pervasive cyber physical applications; meanwhile the design automation tools bridging deep learning software models and processor architectures are still at their infancy. The main research topics in this proposal include the cross-layer automatic mapping and design optimization across the neural network model layer, the architecture layer, the microarchitectural layer, and the circuit layer; the automatic co-optimizating the interaction of model layer and system software layer. The research achievements include: 1) Dataflow-driven automatic mapping from neural network model to hyper-parallel architectures; 2) Machine learning-driven automatic optimization for microarchitecture parameters; 3) Circuit layer approximate computing units mapping and optimization; 4) Prototype toolset compatible with existing deep learing development envirouments, and application to a demonstrative cyper physical system. This research will innovate the design methodology, provide a suit of key techniques for design automation of cyber physical deep learning processors, produce a series of intellectual properties, and fuel the research and applications towards artificial intelligence oriented emerging computing devices and chip designs.
深度学习处理器对于物端智能应用日益重要。现有的通用深度学习处理器难以满足泛在物端应用的高能效需求;从深度学习软件模型到处理器硬件架构的设计自动化商用工具尚未出现。本项目拟研究针对物端应用的深度学习处理器自动定制框架,包括从神经网络模型层到体系结构层、微体系结构层、电路层的自动映射与设计优化方法,基于硬件神经网络的模型层与系统软件层的自动优化方法。预期研究成果:(1)数据流驱动的神经网络模型层到超并行体系结构层的自动映射方法;(2)机器学习驱动的应用约束下微体系结构层参数自动优化方法;(3)神经网络处理器电路层近似计算单元自动映射与优化方法;(4)构建原型自动定制工具和系统,兼容现有深度学习开发软件。本研究将为物端深度学习处理器的自动定制提供创新方法和关键技术,形成核心知识产权,推动面向人工智能的新型计算器件与芯片设计的研究和应用。
深度学习处理器对于物端智能应用日益重要。通用人工智能芯片编程容易但能效不高、专用深度学习芯片能效高但定制设计成本高与难度大,如何平衡“通用”与“专用”是实现物端计算智能需要解决的两难问题。亟需从深度学习软件模型到处理器硬件架构的设计自动化工具来满足碎片化物端应用对智能处理器的快速定制需求。本项目针对物端应用的深度学习处理器自动定制框架,提出了系列从神经网络模型层到体系结构层、微体系结构层、电路层的自动映射与设计优化方法,发表论文40篇,申请发明专利5项,获得软件著作权2项。其中一些重要创新成果包括:1)在神经网络处理器体系结构层自动映射方面,提出了基于计算存储器的向量检索架构自动设计方法VStore、用于高效设计神经网络加速器的神经网络搜索处理器、面向FPGA的图神经网络硬件加速器自动生成框架等,为神经网络处理器的体系结构自动设计和优化提出了有效解决方案。2)在考虑应用约束的微体系结构参数自动优化方法方面,提出了基于图神经网络的片上网络功耗-性能-面积评估算法、处理压缩视频流的神经网络加速架构Alchemist、基于阻变式存储器的灵活精度调整卷积神经网络加速器等,在满足应用需求的情况下提升了系统的性能、能效和可靠性。3)在面向物端定制神经网络的电路层自动映射与优化方面,提出了面向移动平台的实时性神经网络自动优化设计方法、云端与边缘协同的深度学习任务映射方法、面向状态感知的ReRAM神经网络计算方法等,针对物端资源受限的情况下设计了系列低功耗的神经网络加速器电路。.项目研究扩展了传统的高层次综合概念范畴,是高层次综合在深度学习处理器上的创新性应用,具有重要的科学意义。本项目同时考虑了目标应用的实时性目标与能耗约束,创新了面向物端专用领域的深度学习处理器芯片设计自动化技术,以满足物端对人工智能应用的泛在、多样化需求,可有效助力物端计算的智能化。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
滚动直线导轨副静刚度试验装置设计
物联网中区块链技术的应用与挑战
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于混合优化方法的大口径主镜设计
面向深度学习处理器的可靠性分析与优化技术研究
面向嵌入式深度神经网络处理器的低功耗设计技术研究
深度学习处理器体系结构
面向染色体核型自动化分析的深度学习算法