结合前馈和反馈机制的自然场景文本识别技术

基本信息
批准号:61473036
项目类别:面上项目
资助金额:83.00
负责人:殷绪成
学科分类:
依托单位:北京科技大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:周芳,田澍,杨春,裴唯一,闫琰,张军,崔小平,耿斌,张博文
关键词:
前馈反馈文本识别文本检测自然场景
结项摘要

End-to-end scene text recognition has important applications in human-computer interaction, image understanding, video retrieval etc. Currently, most researchers investigate text detection, segmentation, and recognition separately in the end-to-end system with a very limited performance. On the contrast, our project focuses on the end-to-end scene text recognition system by combining feedforward and feedback simultaneously. First, we propose a deep neural network framework with feature fusion, and construct efficient character and word classifiers. Second, we propose a feedback learning algorithm with vision features and classifiers' outputs, and investigate adaptive feedback strategies for scene text recognition. Third, based on the concept of Feed Forward Loop in Network Motif, we propose a new and whole strategy with feedforward and feedback in the end-to-end recognition system. Finally, based on our leading text detection technology and followed with the above novel methods, we construct a world-first-level-class system for end-to-end text recognition in natural scene images. The achievements of this project will include several important novel theories and technologies in character recognition, pattern recognition, machine learning, and image retireval.

自然场景文本识别(end-to-end scene text recognition),是人机交互、图像理解、视频检索等应用的重要技术手段。当前技术主要把文本检测、分割和识别等过程分离开来进行研究,而且具有非常有限的整体识别性能。本课题研究创新性结合前馈和反馈机制的端到端场景文本识别技术。首先,提出融合特征集成的深度神经网络架构,研究高效的场景字符分类器及词识别技术;其次,提出基于图像特征和识别输出综合学习的反馈技术,研究有效的场景文本识别信息反馈方法;第三,引入网络基序正反馈环前馈模式,提出全新的端到端场景文本识别信息前馈与反馈整体机制;最后,基于我们世界领先的自然场景文本检测与分割技术,并结合前述创新方法,构建世界领先水平的端到端场景文本识别技术。本课题的研究成果在文字识别、模式识别、机器学习、图像检索等方面具有较大的理论意义和重要的实用价值。

项目摘要

自然场景文本识别(end-to-end scene text recognition),是人机交互、图像理解、视频检索等应用的重要技术手段。当前技术主要把文本检测和识别等过程分离开来进行研究,而且具有非常有限的整体识别性能。本课题研究创新性结合前馈和反馈机制的端到端场景文本识别技术。首先,提出了融合特征集成的深度神经网络架构,构建了高效的场景字符分类器及词识别技术;其次,提出了基于图像特征和识别输出综合学习的反馈技术,设计了有效的场景文本识别信息反馈方法;第三,提出了的端到端场景文本识别信息前馈与反馈整体机制,构建了基于跟踪的视频文本检测与识别框架;最后,基于我们世界领先的自然场景文本检测与分割技术,并结合前述创新方法,构建世界领先水平的端到端场景文本识别技术。.在本项目的资助下,项目组成员共发表18篇SCI/EI检索期刊/会议学术论文,其中SCI论文10篇(含2篇IEEE Trans. Pattern Analysis and Machine Intelligence论文和2篇IEEE Trans. Image Processing论文)。特别的,项目组研究团队在2015年国际文档分析与识别大会Robust Reading Competition竞赛中,荣获“端到端自然场景文本识别(Generic)”、“端到端网络图片文本识别(Generic)”等四项冠军;在2017年国际文档分析与识别大会Robust Reading Competition竞赛中,又再次荣获“大规模真实场景端到端文本识别”(Challenge on COCO-Text)冠军。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

殷绪成的其他基金

批准号:61105018
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目

相似国自然基金

1

维吾尔文自然场景文本检测与识别方法研究

批准号:61662082
批准年份:2016
负责人:刘战东
学科分类:F0605
资助金额:40.00
项目类别:地区科学基金项目
2

基于多信息融合的自然场景图像中的文本检测和识别方法研究

批准号:61305004
批准年份:2013
负责人:王大寒
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
3

基于深度强化学习和路径积分特征图的自然场景文本检测与识别

批准号:61673182
批准年份:2016
负责人:黄双萍
学科分类:F0605
资助金额:62.00
项目类别:面上项目
4

基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割

批准号:61702118
批准年份:2017
负责人:姜允志
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目