Aiming at open scientific problems of image automatic recognition and understanding of the computer vision, we analyze the working principle of deep convolution network learning mechanism inspired by the cognitive principle and visual perception mechanism. Three basic scientific problems are considered in image recognition from various angles: the invariance of visual expression, the openness of vision, and the biological mechanism of visual circuits and the problem of common mathematical models. To solve the problem of invariance of the visual expression, the invariance feature of deep neural network internal learning process and the transfer mechanism between layers are explored, on the basis of visually recognizing the invariance of feature coding. In view of the openness of vision, we analyze an external learning process of neural network in recognition. Various examples and different characteristics are taken to adapt to the new task to achieve adaptability and robustness of the external transfer learning. For the visual circuit of the biological mechanism and mathematical common model problem, visual flow is proposed from the ventral visual pathway characteristics of invariant, and we build a visual flow model based on the Ricci flow under the optimal transportation. This study provides a theoretical basis for further exploration of the underlying mechanism behind vision, and provides new and potential ideas for machine vision in the era of big data.
针对图像自动识别与理解这一计算机视觉的开放科学问题,在大脑认知原理和视觉感知机制启发下,深入分析深度卷积网络学习机制工作原理,从多种角度来思考在图像识别中的三个基本科学问题:视觉表达的不变性问题,视觉的开放性问题,和视觉回路的生物机制与数学共性模型问题。针对视觉表达的不变性问题,通过视觉识别过中特征编码不变性,探讨深度神经网络内部学习过程中不变性特征,分析层之间的迁移机理;针对视觉的开放性问题,分析深度神经网络在识别时的外部学习过程,通过不同实例,不同特征来适应新任务,达到外部学习迁移鲁棒性和自适应性;针对视觉回路的生物机制与数学共性模型问题,从腹测视觉通路特性出发,提出不变视觉流,建立基于最优传输下的Ricci流建立腹测视觉通路的视觉流模型。本研究为进一步探索视觉背后的根本机制提供理论基础,并为大数据环境下机器视觉提供新的、潜在的思路。
深度学习的出现极大地推动了图像识别的研究进展,但深度学习的本质是通过多层非线性变换进行训练集拟合,极大程度地依赖于标注样本的丰富程度。为了提升深度神经网络模型的鲁棒性和泛化能力,本项目在人脑认知原理和视觉感知机制启发下,对视觉表达的不变性问题、视觉的开放性问题、视觉回路的生物机制与数学共性模型问题进行深入研究。. 考虑到最大响应图算法只关注了该卷积核上的最大输出,并没有考虑该最大响应图对其它卷积核的影响,本项目首先提出了独立最大响应图算法获取每个卷积核的解缠特征。不同卷积核可能产生重复的表达,存在其它卷积核对该解缠特征产生较高的响应,本项目进一步提出表达可替换性的方法去量化其它卷积核对表达的重复性。表达可替换性高的原因即可能是卷积核的表达容易被其它卷积核替代,也可能是卷积核没有学习到任何特征。本项目进一步提出了激活的表达可替换性,其表示了目标卷积核输出的有效激活值在特征空间中的表达的可替换性。基于这些响应度量算法计算不同层上的最大响应图的分布差异,并作为学习信息对模型参数进行更新,最终提出了三种不同的迁移学习方式。通过衡量神经网络不同层之间的内部响应情况,对内部学习迁移变化进行了度量。通过考虑开放环境下不同情况的学习变化过程、视觉的高度自适应性,提出高效的跨域特征表达模型。. 本项目提出的独立最大响应图算法、表达可替换性、激活的表达可替换性等概念除了可以表达卷积核自身的特性来量化模型的泛化能力,也可以解释一些正则化以及针对模型泛化的理论知识。通过这些概念描述卷积核的激活特性指引网络训练,既可以在迁移学习中加快模型的收敛效率,也可以提升模型的泛化性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
面向视觉认知的脑启发式多源数据深度学习理论与方法
生物认知机制和特性启发的视觉计算模型与方法研究
视觉注意与人脑记忆机制启发下的感兴趣目标提取与跟踪
深度视觉树学习及大规模图像识别研究