近年来,我国汉字及主要少数民族文字等现代印刷文档识别研究已取得重要成果。中华民族文化的信息化及国际化发展亟待更有效地解决多文种印刷及手写文档识别领域中的文种及文档类型扩展问题。本项目在原有研究尚未考虑的文档图像分割和识别统一建模方面,提出系统描述不同文种文档版面分析、文本行字切分和字符识别整个过程的多层次马尔可夫随机场(Hierachical Markov Random Field, HMRF)模型理论方法。研究内容为:对于不同体系文种,在图像页面、区域、文本行、字符多个层次上进行文档图像HMRF模型构造的方法;利用标记样本和大量实际未标记样本的半监督学习进行HMRF模型训练;利用已训练的模型对输入文档图像进行识别的优化求解方法。前期相关研究说明该理论方法具有可行性。研究难点为综合利用图像全局和局部信息以及先验知识来提高文档识别率;研究创新点为首次提出多种文档图像分割与识别的统一理论模型。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于MCPF算法的列车组合定位应用研究
现代优化理论与应用
空中交通延误预测研究综述
基于编解码网络的航空影像像素级建筑物提取
融合字符串特征的维吾尔语形态切分
图象的马尔可夫随机场模型与算法的研究
面向图像复原的高阶马尔可夫随机场先验模型研究
基于马尔可夫随机场模型与非局部先验的肝脏图像配准
基于马尔可夫随机场的大规模网络社团发现研究