在多字体汉英混排印刷文本识别实用化性能提高若干重要问题的研究获得重要进展,主要在⑴低质量印刷文本识别本的提高:核心在于汉字识别特征的提取,从理论上应提取高有效信息熵的特征,在实际上筛选出适合汉字识别高鲁棒性的特征,极大提高了低质量印刷文本的识别率。在体系结构上,采取多识别方案的综合集成方法,更进一步有效地提高了识别率和鲁棒性。⑵多文种混排文本的识别,最常迁到的是汉英混排队的双语文本识别,最佳识别方案是在混排文本首先进行语种的辨识和然后按不同语种分别进行纠字切分和不同语种的识别和后处理。进行文种的辨识,如汉字和英文的辨识主要依靠不同文字的统计特性的区别。研究成果为THOCR-94和THOCR-97多文种汉字识别系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于直观图的三支概念获取及属性特征分析
基于速变LOS的无人船反步自适应路径跟踪控制
GF-4序列图像的云自动检测
基于小波高阶统计量的数字图像来源取证方法
汉字识别研究中若干核心问题的新开拓
基于合成样本和MCE准则下判别学习的汉字手写文本识别研究
基于多种知识的脱机手写体汉字文本识别方法研究
以知识为基础的文本图像理解和汉字识别及处理的研究