Deep neural network based methods provide a pragmatic solution for feature extraction in 3D visual media processing. Yet they still suffer from a few problems like structural constraints, insensitivity to details and explainable issue. Therefore, this project aims at developing new end-to-end deep neural network based methods, to learn and optimize feature representation for 3D visual media. Specifically, we focus on tackling the following threefold issues: (1) learning to fuse multi-modal neural networks. We introduce a 3-step cycle generative adversarial network, to transfer data into multiple forms, including point cloud, mesh and view. We also propose a multi-modal ensemble strategic to accomplish feature extraction within a unified framework. (2) optimizing feature representation via novel attention mechanisms. Inspired by the trait of human visual system, we propose to adopt attention mechanism to optimize feature. Our method introduces a weakly supervised learning method and a regularization method, to generate high-quality attention mask for training network. (3) learning semantic feature for visual media. We propose a new transfer learning method, which can adopt class constraint or similarity constraint, to convert feature extracted by networks into semantic feature, and consequently obtains the semantic interpretable description for 3D visual media. In summary, this project can provide novel theories and methods for the feature extraction of 3D visual media, and will greatly facilitate subsequent applications and systems.
深度神经网络拥有端到端可学习的优势,可有效实现对点云、三维模型等可视媒体的特征提取。然而,主流深度神经网络仍存在一定的局限性,如结构单一、细节丢失和不可解释。为此,本项目将研究和改进深度神经网络,提出三维可视媒体特征学习的新理论与方法。主要研究内容包括:(1)基于多模态深度神经网络融合的特征学习。通过引入循环生成对抗网络,实现点云-网格-视图的数据模态转换。并可通过多模态网络融合的策略,在统一框架内对各类三维可视媒体进行特征学习;(2)基于注意力机制的特征优化。通过模拟人眼视觉系统的生理特性,实现弱监督学习的和正则化的注意力掩模,进而提升网络对重要细节和区域的敏感性;(3)基于迁移学习的语义特征表达。通过基于类别约束和相似性约束的迁移学习方法,实现媒体特征与语义特征的转换,形成可解释的三维可视媒体特征表达。本项目成果可提供可视媒体的识别与检索等智能处理系统的基础,具有重要的研究和应用价值。
点云、视频、三维网格等可视媒体数据是当今信息的主要载体,其相关处理涉及多个领域的理论与方法,如图像处理、计算机图形学、计算机视觉、人工智能等。目前,深度学习是三维可视媒体数据处理的主要方法,其核心与优势为端到端的特征学习过程。然而,受可视媒体数据异构化、神经网络模型结构单一等问题制约,当前方法在复杂场景中的性能仍待提升。因此,本项目围绕可视媒体特征学习与优化的关键科学问题进行研究,并取得了一系列研究成果:1.提出了多阶段时空网络,以多种注意力模块、在神经网络的多个阶段融合空间上下文与时间上下文,并应用于草绘图的识别;2.提出了多分支的点云卷积神经网络,实现多尺度特征的融合,用于实现草绘图的语义分割;3.提出了多模态信息解耦方法,将人体特征拆分为姿态、肤色、服饰、外貌等因素,用于实现条件可控、通用的人体图像生成;4.提出了三维人体结构感知的全局语义对应算法,通过高层语义特征的相似性建立不同人物部位间的对应关系,用于处理复杂姿态下的人体图像编辑;5.提出了多时序上下文嵌入的注意力机制,有效检测多维时序信号中的异常模式;6.提出了局部-全局特征融合的点云神经网络,提升点云神经网络在三维网格分割的性能;7.提出了体素保形的点云四边形网格化方法,节省了传统点云网格化中的重构步骤,提升了方法整体效率;8.提出了边缘感知的图像分割方法,并将其运用于细胞图像的分割及非规则细胞识别。本项目的研究成果发表于IEEE Transactions on Image Processing,CVPR,NeurIPS等权威国际学术期刊与会议,其中SCI论文5篇,EI论文3篇,申请发明专利1项,顺利完成本项目设定的目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
空气电晕放电发展过程的特征发射光谱分析与放电识别
多源数据驱动CNN-GRU模型的公交客流量分类预测
人工智能技术在矿工不安全行为识别中的融合应用
基于深度学习的富媒体本体学习模型研究
基于几何计算的可视媒体数据特征提取方法研究
基于深度学习的特征点检测与描述方法研究
基于深度学习的音乐特征学习与分类