能说会唱的三维虚拟人头：语音、歌声和情感语义同步的人脸及发音器官可视化研究

基本信息

批准号：61572450

项目类别：面上项目

资助金额：66.00

负责人：於俊

学科分类：

依托单位：中国科学技术大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：汪增福,郑志刚,罗常伟,江辰,李睿,李贤,康凯,张敬,刘羽

关键词：

发音器官动画语音可视化歌声可视化可视化协调发音人脸表情合成

结项摘要

In view of multi-modal human-machine interaction, the research on speech, singing and emotion synchronized 3D facial animation is developed. It is expected to achieve following goals: based on the fusion of articulation information captured from Magnetic Resonance Imaging and Electro-Magnetic Articulography, a speech, singing and emotion synchronized 3D facial animation system is proposed based on the establishment of facial animation scheme driven by text and musicle score. This system can run in real-time and has the capabilities of producing high realistic facial animation and expression, as well as the appearance and articulators are displayed simultaneously. To alleviate the dfficulties of high accuracy and realism, following problems will be studied thorougly, i.e., the fusion of multisource articulation information, high resolution circular 3D head modeling, the facial animation with 3D facial model, the modeling of relationship between articulators and speech/singing. Moreover, key technologies will be established and the practice talking and singing 3D virtual head system will be constructed to provide a concrete foundation for application.

本项目以多模态人机交互为研究对象，系统开展语音、歌声和语义情感同步的三维人脸动画研究。冀此研究达到如下目的：充分利用和融合核磁共振成像和电磁发音仪等多种发音信息获取手段，设计并实现文本和乐谱多种输入驱动的三维人脸动画方案，实际构建出语音同步的、歌声同步的、语义情感同步的、能够从内到外展示发音可视化过程的、且具有高自然度人脸动画合成功能和表情生成功能的实时三维人脸动画系统。针对系统实现过程中所面临的高精度与高自然度难题，拟从系统的角度，对多源发音数据的融合、高分辨率人头全周三维建模、基于人脸三维模型的人脸动画合成、发音器官运动和语音/歌声的协同关系建模等诸问题进行深入研究，确立与之相关的关键技术并实际构建出能说会唱的三维虚拟人头系统，为研究走向实用化奠定基础。

项目摘要

基于具有极高性价比的多幅可见光图像对用户进行高分辨率人脸全周三维重建并据此进行虚拟发音动作仿真以完成歌唱头的个性化定制，是十分具有学术意义和应用价值的研究课题。该研究充分利用多种人脸采集数据以及人脸的解剖结构和运动特性等多种信息，设计并实现了可见光图像输入驱动的人脸三维重建以及乐谱、歌声和肌肉激励输入驱动的人脸发音图像合成方案。. 首先，针对于如何高精度地获取人脸三维模型，以模仿果蝇复眼模式的立体视觉系统为研究对象，根据复眼模式在神经生理学上的研究成果引入能模拟其视觉信息处理过程的“运算单元”，构建其视觉信息处理过程的数学模型。在此基础上，进行复眼立体视觉系统的标定和利用“运算单元”之间的协同合作关系来完成高精度、高速的复眼立体图像匹配以重建人脸外观三维模型，并且通过配准人头的多层核磁共振成像(Magnetic Resonance Imaging：MRI)切片数据来得到人脸内部发音器官三维模型，进而构建从外到内的完整人头全周三维模型。然后，在充分学习现有三维人脸表情数据库获得的人脸共性表情信息引导下，构建集骨骼、肌肉、皮肤和发音器官为一体的人脸生理动画模型，从而生成内容与力度多变、高真实感的人脸动画。最后，在充分利用、发挥和融合各个深度神经网络结构的基础上，通过训练人脸歌唱动作数据来学习获得发音器官的歌声同步性。. 综上所述，该研究在构建了完整(人脸外观和内部发音器官)的高精度、高分辨率人脸全周三维模型基础上，结合生理特性与统计数据来建立个性化、高真实感的人脸歌唱动画模型。在该项目支持下主持国家自然基金-联合基金项目、华为创新研究计划-旗舰项目、科大讯飞技术研发项目共3项。主持经费212万。成果通过中国社科院优秀鉴定并被广泛应用。一作/通讯发表论文11篇，包括IEEE(ACM)汇刊5篇、CCF A类国际顶级会议4篇、国际会议最佳提名论文1篇、其它SCI期刊1篇。科研获奖共5项，包括国际旗舰会议(IEEE ICME 2017)最佳论文提名奖(一作)、CCF A类国际顶级会议(ACM MM 2019)图像识别竞赛冠军(排名第一)、中国模式识别与计算机视觉大会(PRCV 2018)图像识别竞赛冠军(排名第一)、国际旗舰会议(IEEE ICME 2019)人脸图像特征点定位竞赛亚军(排名第一)、中国多媒体大会(ChinaMM 2019)人脸检测竞赛亚军(排名第一)。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2020

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：

发表时间：2016

DOI：

发表时间：2016

DOI：10.3969/j.issn.1004-132x.2022.17.003

发表时间：2022

於俊的其他基金

批准号：U1736123

批准年份：2017

资助金额：70.00

项目类别：联合基金项目

批准号：61303150

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

语音及情感语义同步的三维人脸可视化：从发声器官到外观

批准号：61472393

批准年份：2014

负责人：汪增福

学科分类：F0209

资助金额：80.00

项目类别：面上项目

语音同步的高真实感三维人脸情感动画研究

批准号：61303150

批准年份：2013

负责人：於俊

学科分类：F0209

资助金额：25.00

项目类别：青年科学基金项目

基于影像和语音分析的发音器官运动可视化

批准号：61273288

批准年份：2012

负责人：杨明浩

学科分类：F0304

资助金额：81.00

项目类别：面上项目

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

批准号：61501249

批准年份：2015

负责人：闫静杰

学科分类：F0116

资助金额：19.00

项目类别：青年科学基金项目

能说会唱的三维虚拟人头：语音、歌声和情感语义同步的人脸及发音器官可视化研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

口腔扁平苔藓研究热点前沿的可视化分析

财政、金融与产业政策的协调配合研究——基于推进供给侧结构性改革的视角

A Fast Algorithm for Computing Dominance Classes

射流束切削时在边壁约束下的直径增大变形及加工表面质量研究

於俊的其他基金

海量数据小训练样本集环境下的2D+3D人脸表情融合识别研究

语音同步的高真实感三维人脸情感动画研究

相似国自然基金