The study on Manchu document image retrieval based on word spotting uses deep learning as major approaches. 1 The proposed cascade conditional generative adversarial network modeling Manchu font transfer and image degradation, is trained on synthetic data with their class labels as the conditional variables, then generates Manchu word images with various fonts and image degradation. These artificial data satisfies requirements of quantity, balance and diversity for deep learning. 2 Convolutional neural networks learn to represent features of the query Manchu word image, avoiding subjectivity and limitations of shallow features. Common convolutional neural network needs a fixed-size input image while Manchu word image has varying lengths. A spatial pyramid pooling layer is inserted into the convolutional neural network in order to handle the aforementioned contradiction and realize deep feature representations for arbitrary size Manchu word images. The proposed convolutional neural network is trained on artificial Manchu word images generated by the cascade conditional generative adversarial network proposed in step1, and its hyper parameters are optimized experimentally according to retrieval performance. The trained and optimized network gives final deep features of a Manchu word image.3 Connected component analysis and machine learning are combined to extract text line and Manchu word according to the characteristics of Manchu historical document image. 4 Image deep feature matching employs the similarity metric learned through Metric learning.
以深度学习为主要方法,研究满文文档图像的字定位检索关键技术。1设计级联条件生成对抗网络,对满文字体风格迁移和图像质量退化原理建模;以类别标签为条件变量,人工合成数据为网络输入,生成质量退化的不同字体满文单词图像样本,满足深度学习对样本规模、数量均衡度和多样性的要求。2采用卷积神经网络学习满文查询词图像特征表示,避免浅层特征的主观性和局限性;为了解决卷积神经网络输入尺寸固定而满文单词长度变化大的矛盾,实现任意尺寸满文单词的深度特征表示,设计具有空间金字塔采样层的卷积神经网络;采用第1步级联条件生成对抗网络产生的满文单词图像作为训练数据,以检索系统性能为依据,通过实验手段优化卷积神经网络的超参数,最终确定满文查询词图像的深度学习特征表示法。3针对满文历史文档图像特点,融合连通域分析和机器学习等方法研究满文文本列和满文单词的提取方法。4采用度量学习获得相似性度量准则实现查询词图像深度特征匹配。
为保护和传承中华民族历史文化遗产,推进少数民族古籍数字化和信息化,本项目对满文历史文档图像信息检索系统的关键技术进行研究。通过系统分析,确定本项目的主要研究内容分为满文数据增广和大规模满文数据构建、满文单词的深度特征表示与匹配以及满文历史文档预处理与版面分析3部分。采用生成对抗网络和数字图像处理技术分别构建了3套数据增广系统,实现一对一和多对多的满文字体风格迁移,手写变形等操作,增加满文训练数据量,扩充数据多样性,满足深度神经网络泛化要求;构建具有14275类满文单词,每类单词12种字体的大规模满文数据库。研究设计深度卷积神经网络和带有金字塔结构采样层的深度卷积神经网络,实现对固定尺寸和任意尺寸的满文单词图像的深度特征表示与识别,对卷积层提取的满文单词特征进行可视化分析。以满文查询词深度特征表示为基础,依托迁移学习思想和度量学习方法,针对小样本满文单词匹配问题,采用孪生卷积神经网络结合支持集信息,优化训练策略,通过全连接层学习一种满文单词深度特征的距离度量,实现了小样本满文查询词匹配;针对大类别的查询词匹配问题,构建基于N元纠错输出码的大类别k样本学习的满文查询词匹配模型。满文历史文档图像具有多种退化现象,提出的分块同态滤波能缓解光照不均现象,与U型卷积神经网络相结合,提出的二值化方法可以有效地去除复杂背景保留文本;提出了基于马氏距离度量学习、基于缝隙裁剪和基于混合策略的满文文档图像列分割方法,解决了文本列弯曲粘连、附属与主体笔画关系模糊不清等情况下的满文文本列提取问题;提出了采用满文单词统计特性分析连通域的启发式满文单词与部件提取方法;提出了基于Mask R-CNN的满文文档版面分析方法,实现了满文文档的实例分割;提出了基于改进Faster R-CNN的满文文档印章检测方法并采用生成对抗网络去除文档中的印章。本项目的研究成果解决了满文历史文档图像检索系统的部分关键技术问题,为系统开发奠定理论基础,具有广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
内点最大化与冗余点控制的小型无人机遥感图像配准
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于深度学习的手绘草图图像检索方法研究
基于关键词多特征融合的维吾尔文文档图像检索
基于实例感知深度哈希学习的高分辨SAR图像检索
复杂背景下的多行文档图像检索技术研究