基于音视频关联的交叉感知驱动选择性注意机制研究

基本信息

批准号：61672201

项目类别：面上项目

资助金额：62.00

负责人：陈雁翔

学科分类：

依托单位：合肥工业大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：Guojun Qi,孙锐,杨勋,罗长志,宋明龙,林新宇,任洪梅

关键词：

音视频关联交叉感知选择性注意

结项摘要

With the explosive growth of multimedia data, rapidly extracting the useful information is highly desired from the huge video data which is the combination of sound and image. In this proposal, built on the research on audio-visual cross-perception and selective attention in brain and cognition science, the cross-perception driven selective attention mechanism based on audio-visual correlation is proposed. According to two-pathway theory, the deep study into object & space perception is developed based on audio-visual correlation, so that the audio-visual cross-perception could be fully used to effectively combine with selective attention. Thus the sequence of attention areas is obtained for reflecting the video information to an extreme. More specifically, a unified attention areas extraction framework can be developed, including the following parts: audio-visual semantic correlation based on latent semantic space is proposed by employing the Latent Semantic Analysis; audio-visual time serial correlation based on co-occurrence matrix is presented to reflect the strength of synchronization; audio-visual 2D spatial correlation is established based on Canonical Correlation Analysis; audio-visual 3D depth correlation is constructed based on Bayesian criterion; the sequence of attention areas is generated by collaborating the audio-visual information of object & space perception. Our research can reveal the influence of the multisource data interaction on human perception. Moreover, it can also offer the application in the fields of video scene understanding, robot environment awareness, video retrieval as well as anomalous event detection.

随着多媒体数据迅猛增长，从海量的集图像、声音为一体的视频数据中快速提取对人们有用的信息成为迫切需求。本课题以脑与认知科学关于视听觉交叉感知和选择性注意的研究为基础，提出一种基于音视频关联的交叉感知驱动选择性注意机制，根据两条通路理论深入研究基于音视频关联的物体与空间感知，从而充分利用视听觉交叉感知，与选择性注意机制有效结合，以获得能最大限度反映视频信息的关注区域序列，并拟建立一套完整的关注区域提取框架，具体包括：采用潜在语义分析技术，实现基于潜在语义空间的音视频语义关联；建立基于共现矩阵的音视频时序关联反映同步程度；利用典型相关分析，建立音视频2D 平面空域关联；根据贝叶斯准则构建音视频深度关联；协同音视频物体和空间感知信息，生成关注区域转移序列。本课题研究对于揭示多源信息交互作用对人类感知影响具有重要意义，其研究成果在视频场景理解、机器人环境感知、视频检索和异常检测等领域表现出应用价值。

项目摘要

本项目以脑与认知科学中关于视听觉关联和选择性注意机制的研究为基础，采用自监督及对抗学习等方法挖掘音视频之间潜在的关联关系，并和注意力机制相结合，主要研究内容包含音视频关联和注意力机制两大模块。在音视频关联模块：(1)提出了采用动态时序特征和静态语义特征共同对视听觉信息的关联做出判别，建立时序及语义匹配的自监督模式，并以自监督学习方式构建音视频数据对之间的特征联系，学习到一种反映二者之间共性的特征表示；(2)引入对抗机制学习出与模态无关的特征，解决不同模态的表征难以进行比较的问题，研究表明，这种跨模态关联可保留语义结构一致性，也就是获得模态不可辨识、语义可区分的视听觉融合表示；(3)设计了基于跨模态数据分布变换的互补生成网络，利用生成式模型复杂数据概率分布学习能力获得了缺失模态关联数据的生成，从而通过转换生成获得更丰富数据集，促使音视频间蕴含的关联特性得到更好地挖掘。在注意力机制模块：(1)开展了融合了人眼关注焦点的自上而下注意力机制方面的研究，提高了在光照变化、不同视角、复杂背景情况下的鲁棒性；(2)利用视听觉感知与选择性注意机制有效结合，模拟人眼关注点移动轨迹，实现对人眼关注转移序列信息的表达，并利用反映人类对图像/视频感知的注意力转移序列来进行质量及美学评估；(3)项目应用方面在显著性检测的基础上研究了针对异常类训练数据缺失情况的异常检测，并与合肥市轨道交通集团有限公司就异常检测方面的技术洽谈了合作事宜。本项目丰富和完善了多源信息感知研究框架及相关理论体系，执行期间发表学术论文8篇，其中SCI检索论文6篇。申报发明专利5项，其中申报美国专利1项，授权中国发明专利2项，进入实审的中国发明专利2项。构建了一个用于音视频关联研究的人脸及语音属性对齐的Voice-Face数据集。指导学生参加相关创新竞赛，获得国家级竞赛二等奖1项、省级竞赛一等奖2项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.1360/TB-2020-0766

发表时间：2020

DOI：10.16409/j.cnki.2095-039x.2021.03.012

发表时间：2021

DOI：710.6041/j.issn.1000-1298.2021.10.027

发表时间：2021

DOI：10.13383/j.cnki.jse.2020.04.001

发表时间：2020

陈雁翔的其他基金

批准号：61105076

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

基于选择性注意的交叉感知信息认知计算

批准号：61332018

批准年份：2013

负责人：龚怡宏

学科分类：F0210

资助金额：300.00

项目类别：重点项目

基于注意机制的主动立体视觉选择性感知模型研究

批准号：61171141

批准年份：2011

负责人：肖南峰

学科分类：F0113

资助金额：50.00

项目类别：面上项目

基于风险感知的驾驶员选择性注意形成机理及影响研究

批准号：71261012

批准年份：2012

负责人：熊坚

学科分类：G0106

资助金额：37.00

项目类别：地区科学基金项目

复杂场景下基于目标感知的视觉注意机制的建模研究

批准号：61572392

批准年份：2015

负责人：肖锋

学科分类：F0209

资助金额：65.00

项目类别：面上项目

基于音视频关联的交叉感知驱动选择性注意机制研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于改进LinkNet的寒旱区遥感图像河流识别方法

高盐水中硝酸根的电化学去除方法

拟果蝇钠离子通道基因克隆及其生物信息学分析

基于注意力机制和多尺度残差网络的农作物病害识别

移动情境感知环境下的用户行为模式挖掘算法研究

陈雁翔的其他基金

具有情感的可视语音中基于耦合关系的音视频关联方法的研究

相似国自然基金