基于局部特征的自然场景下文字定位和识别研究

基本信息
批准号:61201384
项目类别:青年科学基金项目
资助金额:24.00
负责人:周异
学科分类:
依托单位:上海交通大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:周曲,陈凯,齐开悦,任逍航,张寅,林成峰,申沛
关键词:
文字定位和识别局部特征自然场景
结项摘要

Our goal is to read text from an image in natural scenes. There are many applications for such a technology, for example, recognizing sign from natural scenes, license plate recognition, image and video search engine and web mining. However, low image quality, complex background, deformation and variations of text make these problems challenging. Our research includes: (1) Propose a LCR model based on the research works of object recognition and image retrieval, design a framework of text localization and recognition using local features, and design algorithms of geometric verification and template images generation. (2) Propose algorithms of local features detector and descriptor for text, and develop methods of text localization and font recognition. Although there are still many works are needed toward a mature application for the local features method. Local features which are distinctive and robust to noise, complicated background, and many kinds of geometric and photometric deformations. Moreover,as our prior works show, local features matching could be potentially extended to text recognition problems. Our research work will build a platform of text localization and recognition using local features, and will provide basis of theoretical and practical for research of text localization and recognition in natural scenes.

自然场景中的文字定位和识别在互联网信息理解/智能交通等众多领域具有重要的应用价值,但该研究面临复杂背景、低图像质量以及文字变形等诸多挑战。本课题研究包括:(1)结合图像检索/物体识别领域的研究方法和成果,提出LCR模型,并基于该模型设计基于局部特征的文字定位和识别总体架构,设计几何约束算法和样本库构建算法;(2)研究文字结构及统计特性,提出一种面向文字的局部不变性特征检测及特征描述算法,并研究利用局部特征改进文字定位/字体识别的方法。目前基于局部特征的方法尚处于起步阶段,该方法基于局部特征本身具有不变性特征(旋转不变性、尺度不变性、仿射不变性、灰度不变性等),在解决复杂背景与布局、低质量及文字变形的挑战方面展现了巨大的研究潜力。本课题将结合申请人已有的研究成果,形成文字定位和识别系统的研究平台,为自然场景中文字定位和识别提供理论依据和实践基础。

项目摘要

图像文字识别是目前数字图像处理和内容识别领域的一个重要研究方向。与扫描图像相比,自然场景图像文字识别存在以下挑战:1、文本字体和笔画粗细多样;2、文本字符排列布局多样;3、背景和纹理复杂多样;4、相机视角与载体扭曲引起字符几何形变;5、光度不均与噪声导致图像解析度低下等特性。上述特性使得针对复杂背景和自然拍摄图像的文本识别成为一个具有困难和挑战的问题。常用的基于光学字符识别(OCR)的方法在处理自然场景图像时,不仅受到前期文本定位与切分等预处理技术的影响,同时由于OCR对输入图像在文本结构规范上的要求与限制,使得目前基于OCR技术的识别方法在自然场景图像文字识别中存在较大的局限性。本文在实验室前期图像和文字处理研究的技术积累上,提出将局部特征、卷积神经网络相结合应用到图像文字识别的新框架LHCR(Local Feature and High-Dimension based Character Recognition),有效实现了自然场景的图像文本识别。我们的图像文字识别框架区别于基于OCR的传统识别框架,而是将局部特征高维检索、卷积神经网络相结合,利用文字具有明显的纹理信息和结构信息的特点,实现自然场景图像文字识别。框架内容包括: 1)计算机自动构建模板文字图像库,有效防止样本类别缺失和极大的降低了人工收集样本的成本;2)基于局部特征的定位切分方法,将识别和定位相结合,最大限度降低识别误差;3)采用卷积神经网络框架实现识别流程。我们在该框架下实现一个通用的图像文字识别系统,系统的创新点包括:(1)使用卷积离散自编码器算法来进行非监督学习,可以使用无标注的图像对卷积神经网络进行预训练。(2)使用文字结构部件检测器提取文字结构特征,根据不同的文字结构部件构建了不同尺寸的卷积窗,丰富了图像特征的数量,增强了特征描述的独特性。(3)使用空间金字塔模型增强了卷积神经网络的尺度不变性,并使用多输入的深度置信网络作为全连通网络,有效整合了提取到的特征,增强了特征表达的准确性和区分能力。我们使用一个多语言的文字检测数据库对算法进行评估。该数据库将中文、英文和数字区域进行了单独标注。实验结果表明我们的中文字检测算法比基本算法提高了11%。本文的研究结果已成功应用于973项目、863项目和上海市科委项目。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
5

掘进工作面局部通风风筒悬挂位置的数值模拟

掘进工作面局部通风风筒悬挂位置的数值模拟

DOI:
发表时间:2018

周异的其他基金

相似国自然基金

1

基于文字对称性与场景上下文信息的自然场景文字检测研究

批准号:61702160
批准年份:2017
负责人:巫义锐
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

复杂场景图像中维吾尔文字的定位与识别技术研究

批准号:61562058
批准年份:2015
负责人:许亚美
学科分类:F0605
资助金额:37.00
项目类别:地区科学基金项目
3

基于深度信息的复杂场景文字识别研究

批准号:61501192
批准年份:2015
负责人:李南希
学科分类:F0116
资助金额:19.00
项目类别:青年科学基金项目
4

基于图模型的场景文字与叠加文字提取识别技术研究

批准号:61271434
批准年份:2012
负责人:王伟强
学科分类:F0116
资助金额:76.00
项目类别:面上项目