Deep neural networks (DNNs) have been successfully applied to a wide range of applications. The extensive computational and memory resource requirements, however, hinder the adoption of DNNs in power-sensitive scenarios. These include devices with limited power, e.g. mobile phones, wearables, UAVs and satellites, and environments that demand lower energy costs, such as cloud computing centers. Field-programmable gate arrays (FPGAs) are now often used to accelerate DNNs, but the associated high development costs, long time to production, and the lack of an ecosystem are preventing FPGAs to become a viable low-power and high-throughput alternative to GPUs. This project application proposes an automated toolchain to interpret deep learning network model descriptions, compress DNNs by novel pruning and quantization methods, and synthesize and optimize FPGA circuits. To further reduce energy consumption and increase throughput, we propose original optimization techniques based on the properties of FPGAs to compress network models, optimize underlying numerical algorithms, and synthesize circuits using the polyhedral compilation of deep learning inference algorithms. The results of the research could in turn realize the large economic potential for the future of FPGAs in power-sensitive environments.
深度神经网络为各行各业带来了革新性的进展,越来越多的应用在将来可受益于深度神经网络的发展。然而其计算量大、内存占用多的特性,成为了在云端和低功耗设备上部署深度学习的最大阻力。现场可编程门阵列(FPGA)作为深度神经网络专用加速器可有效解决此难点,但同时也带来了开发成本高、时间长、使用门槛高及生态环境欠乏的问题。本项目拟通过自动编译流程,解析深度学习算法模型描述文件、通过量化和剪枝操作压缩深度学习模型、且实现其推理算法的FPGA电路的生成与优化。该流程可降低在各种计算场景下使用FPGA加速深度学习的门槛、缩短开发周期及节约研发成本。为进一步降低功耗、提高性能,本项目拟围绕着深度神经网络与FPGA的特性,展开感知FPGA的深度压缩算法、数值算法的结构、推理算法的多面体编译等优化算法的研究与开发工作。研究成果的应用将会从崭新角度提高在FPGA上深度神经网络实现的能耗比,从而激活利用专用化、自定化硬件加速深度学习算法推理过程的巨大潜在市场价值。
深度神经网络作为人工智能的基础,在无人驾驶、自动决策、智能制造、医疗诊断等领域已获得广泛应用。然而,相比传统方法虽然神经网络有更高的准确率,但是其计算开销和存储需求的显著提升,成为了在云端和低功耗设备上部署深度学习的最大阻力。本项目紧密围绕基于深度神经网络的应用对硬件资源开销、时延、准确率的三方面需求,针对FPGA硬件平台的开发难度大、周期长、门槛高的难点,充分利用FPGA电路可定制、可重构的灵活性,开展了深度神经网络电路定制优化的关键技术研究,在模型剪枝、量化、硬件实现及安全性测评等方面取得了重要的进展。其成果形成了一套完整的模型自动优化工具链,可为模型加速的硬件资源占用、时延、安全性以及准确率提供一套评测基准,并进一步为基准之间的权衡提供优化,最后生成专用加速器芯片电路。本项目在执行过程中,项目团队共发表SCI/EI论文9篇,其中本领域国际期刊2篇,在ICLR、CVPR、NeurIPS等机器学习与人工智能领域相关重要国际会议上发表论文7篇,其中CVPR论文获选最高级别论文宣读(Oral),申请国家发明专利共10项,培养研究生10名,其中包括直接培养在读硕士研究生5名,协助培养已毕业硕士研究生2名、在读博士研究生2名、已毕业博士研究生1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
拥堵路网交通流均衡分配模型
卫生系统韧性研究概况及其展望
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于深度学习等机器学习算法的星系光谱自动分类方法研究
基于支持向量聚类与深度学习的图像自动注释算法研究
面向染色体核型自动化分析的深度学习算法
基于深度学习的推荐算法研究