动态长时手语视频自动翻译研究

基本信息
批准号:61876058
项目类别:面上项目
资助金额:64.00
负责人:郭丹
学科分类:
依托单位:合肥工业大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:张晶,高欣健,王硕,贲辉霞,傅炜杰,李传青,唐申庚,熊成鑫,裴现坤
关键词:
手势识别手语识别人体行为分析语义解析视觉信息理解
结项摘要

Online vision-based sign language communication and translation system has been a significant task in both fields of computer vision and pattern recognition. It can effectively help deaf people to communicate with others, and it can also be used in some specific applications, such as aircraft carrier gesture style recognition. Most current researches still focus on isolated sign recognition, which has limited applications due to dispersive semantic content with each single expression. In this project, we focus on dynamic continuous sign sentence translation (DCST). Its goal is to automatically transform a long video into a sentence or a paragraph. However, the DCST problem suffers the specific linguistics challenges. It has its own complex word-formation, simplification and grammar rules. How to translate vision to text (sequence to sequence) with multi-granularity visual embedding in the multi-layer semantic structure under the spatio-temporal cues is a challenging task. This project proposes the concept of multi-granularity visual semantic, extracts visual features and builds the feature pool for feature optimization. If appropriate features are selected, this project models the transition among different visual semantic levels and complements the task-driven based fusion. After that, it learns the semantic segment and alignment mechanism among the low-level and the high-level features. Finally, it achieves the semantic understanding and outputs the generated sentences based on the fine-to-coarse semantic architecture. The theoretical research of this topic will provide a new view to develop the multimedia service of sign language.

基于视觉的手语实时通信与翻译已成为当前计算机视觉与模式识别领域的一个重要课题,它能够有效地帮助失语者或在特定应用环境下进行信息交流。当前研究多限于单一手势的分类识别,其形式单一,应用有局限性。本课题致力于动态长时手语视频句子或段落自动翻译的关键技术研究。鉴于手语动作在时序上特有的构词、简化和语法规则,如何在时空信息相互嵌套影响的多层次和多粒度的语义转化中,实现跨越视觉信息(序列)到文本信息(序列)的跨模态语义自动翻译,是目前面临的挑战。本课题拟建立多粒度的视觉语义概念,抽取高低不同层次的视觉特征,构建特征池进行特征择优;挖掘各层次视觉特征间在时序维度上的转换规律;学习从低层次到高层次特征表达所对应的语义分割与对齐机制;基于视频数据自驱动的方式对不同特征表达下的视觉语义进行融合或重组,最终实现基于精细-粗略框架的多层次语义解析。本课题的理论将为新一代的网络多媒体服务提供新思路。

项目摘要

手语是一种基于视觉的语言,它为聋哑人士提供了交流的媒介。手语视频自动翻译技术研究为手语的普及与应用提供了更为便利的途径。在本项目中,我们以手语视频翻译任务为出发点,探究了视觉内容表征、跨媒体智能推理和多模态语义对齐等多个领域的前沿理论与技术研究。根据预定的技术方案及路线,本项目围绕长时手语视频的自动翻译,设计了一系列有效的视频建模算法和跨模态序列翻译方案,并在实际数据集上进行了验证,同时探索了所设计的模型和算法在无障碍人机交互领域中的若干应用,经过四年的努力,完成了预期的任务,取得了一定的成果,完成了既定的任务要求。.理论研究上,本项目关注动态手语自动翻译中涉及的手语视觉特征学习与优化、多特征自适应动态融合、跨媒体分析与智能推理以及手语跨媒体语义对齐问题。主要研究内容包括:基于多尺度视觉感知的视觉特征优化、基于密集时序卷积的手语视频时空特征建模、基于分层递归深度融合框架的连续手语翻译、基于图的多模态手语序列特征嵌入、基于多模态特征类内类间注意力的跨模态推理、基于上下文感知图神经网络的跨模态关系学习、基于在线伪监督对齐学习的连续手语翻译、基于循环关系记忆网络的跨模态语义理解、基于强化学习语义匹配的跨语言视觉描述等。在原型系统设计上,我们结合了层次化循环网络、并行时序网络以及动态融合网络的感知和建模能力。以多语种多模态手语数据为载体,本项目开展了手语视频自动翻译的各类应用研究,为残障人士提供了更加便利的无障碍生活服务。.研究成果共计发表论文23篇,包括已发表/录用SCI收录的期刊论文8篇,国际会议论文EI收录13篇,中文大核心期刊论文2篇。参与编著专著一本,Springer出版社,2021年8月已正式出版。申请的软著以及专利有:软著1项、专利授权7项;专利在申请3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

相似国自然基金

1

基于多粒度视频基元的中国手语合成方法研究

批准号:61170104
批准年份:2011
负责人:王立春
学科分类:F0210
资助金额:55.00
项目类别:面上项目
2

翻译标准自动量化研究

批准号:60773066
批准年份:2007
负责人:杨沐昀
学科分类:F0209
资助金额:26.00
项目类别:面上项目
3

面向智能视频监控系统中目标理解的长时程深度学习模型研究

批准号:61471206
批准年份:2014
负责人:孙宁
学科分类:F0116
资助金额:81.00
项目类别:面上项目
4

能量受限条件下的聋哑人手语视频编码方法研究

批准号:61302116
批准年份:2013
负责人:陈晓雷
学科分类:F0108
资助金额:24.00
项目类别:青年科学基金项目