Texts in natural scene images contain rich high-level semantic information, which leads text detection and recognition techniques to wide applications such as understanding, storage and retrieval of images and videos, license plate recognition, visually impaired persons guiding, etc. However, text detection and recognition from images is a challenging problem due to the complexity of background, varying illumination, and the variability of text position, size, font, color and line orientation. Most text detection and recognition systems perform detection and recognition separately, where text recognition information is not fully used during detction. This project investigates into the framework and methods of simultaneously performing detection and recognition of Chinese text, under which multiple information including top-down information (text recognition information) and bottom-up information (feature information of text region) can be integrated to improve the performance of text detection and recognition.The main contents are as follows: (1) proposing a simultaneously detection and recognition method of Chinese text based on multi-class object detection; (2) developing a Chinese text recognition method based on the integrated segmentation-recognition framework using the semi-CRF model; (3) proposing a text detection and recognition method based on multiple information integration and the semi-CRF model. This project is proposed based on the applicant's research foundation on Chinese text recognition during his PhD and current research work on computer vision. The project has good feasibility and high academic and applicable values.
自然场景图像中的文本包含丰富的高层语义信息,文本检测和识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别和移动导盲等领域。由于图像的复杂背景和光照变化,以及文本的尺寸、字体、颜色和排列方式的多样化,其研究具有极大挑战。现有的文本检测和识别的一般方法是检测和识别分开进行,检测时没有充分利用文本识别信息。本项目针对中文,研究同时进行文本检测和识别从而融合高层信息(文本识别信息)和底层信息(文本区域特征信息)的框架和方法,以提高文本检测和识别性能。具体为:(1)针对中文的基于多类目标检测框架的文本检测和识别;(2)利用semi-CRF模型的基于集成切分-识别框架的中文文本识别;(3)基于semi-CRF模型的多信息融合框架下的文本检测和识别。本项目是申请人在博士期间中文文本识别方面的研究基础上,结合现在所在实验室的基础提出来的研究课题,其研究具有广泛的实际意义和学术价值。
自然场景图像中的文本包含丰富的高层语义信息,文本检测和识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别和移动导盲等领域。由于图像的复杂背景和光照变化,以及文本的尺寸、字体、颜色和排列方式的多样化,其研究具有极大挑战。本项目计划针对场景图像中的文本检测和识别问题,研究场景文本识别中的关键技术,从而提高识别率。我们在场景文本识别的多信息融合的概率框架、字符特征表示、数据集标准等几个方面取得了较大的研究进展。具体研究内容和成果包括:.(1)在多信息融合的概率框架方面,我们在集成的检测与识别的框架下,从贝叶斯决策的角度,提出了一个文本检测与识别的统一的概率框架。在这个框架下,候选检测字符与字符类别保存在一个候选检测-识别网格里,这样将文本识别问题转化为一个路径搜索问题。在提出的概率模型的框架下,场景文本识别里的多种信息包括字符分类器的输出、几何上下文的输出和语言模型的输出在一个统一的框架下进行融合。该方法为场景文本识别提供统一的概率框架和参数学习方法,提高了识别率。.(2)在场景文本的字符特征表示方面,我们提出一种基于稀疏编码特征的场景文本识别方法,该特征提取方法采用了类似于HOG特征的提取方法,不同点在于:HOG特征提取的梯度方向直方图,而基于稀疏编码的特征提取的是稀疏编码的直方图,即Histogram of Sparse Codes,HSC,从而得到图像的稀疏编码特征。我们提出的方法能够更加有效地提取字符的结构特征,能够表示更为丰富的字符特征,从而提高场景文本的检测和识别率。.(3)在场景字符的特征表示方面,我们还探索利用深度学习方法PCANet来学习场景字符特征,有效提高了识别率。PCANet是由多个PCA网络层链接得来,每一层PCA网络层便是一个学习层,可以用来学习更为丰富的特征。我们将PCANet这种深度学习网络用来表示场景字符,有效提高了识别率。.(4)为了推动场景文本检测与识别方面的研究,我们还收集和标定了一个大类别级的场景文本数据集标准,即STV2K。该数据集共包含2068张图像,包含中英文字符共26万个字符。在搜集时,使用手机在厦门市街景随意拍摄感兴趣的图像,因此更加符合实际应用场景。在标定时,标定到字符级别。该数据集是目前公开发表的数据库中最大的数据库标准,将公开发布供学术界免费试用,期望能有效推动该领域的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割
维吾尔文自然场景文本检测与识别方法研究
自然场景中多模态图像内容的文本描述方法研究
自然场景图像中的部分形状识别方法研究