Efficient extraction of natural scene text is still a problem to be solved in the blind visual aid application. The diversity presented by natural scene text, the head rotation of the blind during walking and the geometric distortion resulted by not frontal shooting of camera, have become the bottleneck factors of text extraction technology in the wearable vision application. The research work mainly include: 1) An efficient learning method in the text sign detection is studied, which is based on BOVM model; 2) A TUD (Tracking-Updating-Detection) text sign tracking method is proposed, and the influence of wearable vision on the stability of tracking is studied. 3) The perspective correction of text is estimated under the invariant feature constraint. By means of the theoretical analysis and experiments studies, our objectives are as follows. An unsupervised dictionary learning model is constructed, which aims to adaptively determine the number of scene target species. The strong distinguishing feature is selected by the detector, which can reflect the characteristics of text signs. The real time stable tracking of text sign in the course of the blind walking is realized. The geometry distortion of the text in the walking process of the blind is eliminated. The above research achievement will provide the theoretical basis for the visual aid application of the blind.
盲人视觉辅助应用中的自然场景文字有效提取仍然是一个亟待解决的问题。自然场景中文字呈现的多样性、盲人在行走过程中的头部旋转以及非正面拍摄引起的文字几何失真等因素,都构成了这一应用中文字提取技术的瓶颈。本项目拟研究:(1)基于BOVW模型的文字标牌检测的高效学习方法;(2)检测-跟踪-模版更新相结合的文字标牌跟踪方法和穿戴式视觉对跟踪的稳定性影响;(3)基于不变特征约束的标牌文字透视矫正估计方法。本课题将理论分析和实验研究相结合,旨在建立自适应决定自然场景目标种类个数的非监督字典学习模型,探索体现文字标牌特点的强区分性特征,实现盲人行走过程中文字标牌的实时稳定跟踪,消除非正面拍摄造成的文字几何失真,为盲人的视觉辅助应用奠定理论基础。
自然场景文字信息提取广泛应用于多语言翻译、盲人辅助导航、信息检索、产品识别中。自然场景中任意出现的文字,受语种、拍摄角度、复杂背景和光照变化等因素的影响,呈现方向、形状、语言、大小、颜色和明暗的多样性,为文字检测和识别技术带来了很大挑战。本项目从以下几个研究内容方面展开研究。1)在基于BOVW模型的文字标牌检测的高效学习方法研究方面,我们提出了一种集成BRISK纹理特征和颜色不变性的HS直方图颜色特征的文字标牌描述特征,对自然场景中出现的文字标牌进行了很好的检测。2)为了克服传统字符检测模型由于笔画间存在非连通性引起的汉字错误分割问题,提出了一种直接高效的自然场景汉字逼近定位方法。实验结果表明,对ICDAR2015、ICDAR2017-MLT和MSRA-TD500三个多方向数据集上文本定位任务中的F-score分别达到83.5%,72.8%和81.1% 。3)在车牌字符的识别研究方面,我们设计并实现了一个自然场景下的视频车牌识别系统,对自然场景中拍摄的视频图像的车牌识别取得了很好的结果。4)在自然场景中的曲线文字检测研究方面,我们引入了一种高效、直观的弱检测器精加工机制,由基于粒子群优化的文本形状近似和实例感知的文本组件合并两部分组成,可以把传统的目标检测器的检测结果由松散的矩形框变为紧凑的多边形。实验结果表明,提出的方法在CTW1500和Total-Text5个数据集上H均值性能分别达到82.5%和83.7%。5)针对跟踪算法中存在的模板漂移问题,提出了一种基于增量学习的核相关滤波目标跟踪方法,具有更好的跟踪稳定性。6)在红外目标的检测研究方面,我们提出了一种利用运动轨迹时空一致性的红外运动小目标检测算法,可以提高盲人的夜间的户外出行时对文字的检测和识别能力。7)在系统开发方面,我们开发了一款识字认路系统,实现了人机交互、场景文字的识别和位置定位。本项目的研究为盲人的视觉辅助应用奠定了理论基础,研究成果在盲人辅助导航及产品识别领域有着广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于图卷积网络的归纳式微博谣言检测新方法
一种改进的多目标正余弦优化算法
人工智能技术在矿工不安全行为识别中的融合应用
基于图模型的场景文字与叠加文字提取识别技术研究
基于视觉上下文与文字显著性的复杂自然场景中文字检测研究
基于文字对称性与场景上下文信息的自然场景文字检测研究
自然环境文字分析与处理关键技术研究