融合互联网文本的文档识别方法研究

基本信息
批准号:61876154
项目类别:面上项目
资助金额:62.00
负责人:王秋锋
学科分类:
依托单位:西交利物浦大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:周祥东,冯友计,徐卉,蒋方玲,杨关禹,屈书毅,闫毓垚,周乐,李菁
关键词:
互联网文本强语言上下文文档识别模型融合语言模型自适应
结项摘要

Chinese document recognition technology has achieved tremendous advance in recent years, however, it has not been solved yet for the documents of free handwriting or complicated background, where the recognition performance is not good enough for the industrial application, and is far away from human recognition. One issue of the current recognition methods is that it does not utilize the context information sufficiently. Meanwhile, there is rich context knowledge on the internet. To overcome this issue, it is a good way to integrate internet texts into the recognition system, however, this has not received enough attention yet. In this project, we will investigate the theory and key techniques for the integration of internet texts in the recognition system by internet search, and propose effective methods. The main research contents and innovations are as follows: (1) propose the internet text search method in the document recognition framework; (2) propose the document recognition method based on the strong linguistic context; (3) propose the unsupervised language model adaptation of both local and global contexts from Internet texts; (4) propose the dynamic combination of multiple context models based on the weekly supervised method. The proposed methods will improve the performance of document recognition, and promote the development of document recognition technologies in the industrial application, meanwhile, get academic value.

当前中文文档识别技术有了长足的发展,但是对于一些书写自由或者背景复杂的文档,其识别性能仍然达不到实用的要求,离人类认识水平还有一定的距离。这里面一个很重要的原因是上下文信息利用的不够,而日益普及的互联网上有丰富的上下文知识,因此融合互联网文本的文档识别是解决这个问题的一个有效途径,但当前还没有引起足够重视。本项目拟系统研究利用互联网检索,融合互联网文本的文档识别系统中的理论和关键技术问题,提出和实现有效的方法,以提高识别性能和推动实际应用为目的。主要研究内容和创新点包括:(1)文档识别框架下的互联网文本检索方法;(2)基于强语言上下文的文档识别方法;(3)基于互联网文本的局部和全局上下文语言模型非监督自适应算法;(4)基于弱监督的上下文模型动态融合方法。本项目提出的方法将有效的提高文档识别性能,推动文档识别技术实用化的发展;同时产生学术价值。

项目摘要

文档的数字化对提高人们工作效率和生活便利有着很大的作用,可以有效的提高国家经济的进一步发展,这里面文档识别技术作为一个关键手段具有广阔的应用前景,但是目前的文档识别性能还不足够好,特别是一些质量不好的文档图像,其识别性能远远低于人类识别水平。因此,本项目研究借助互联网上丰富的资源来提高文档识别性能。具体而言,我们研究了文档图像的处理,文档识别的基本方法以及一些相关的模式识别理论探索。在文档处理方面,我们提出了一种基于对抗生成网络的弯曲文档矫正方法以及提高字符分辨率的方法;在文档识别方面,我们提出了一系列方法,包括利用互联网检索的语言模型自适应方法,有效提高文档识别性能;以及基于弱监督学习的中文手写字符串识别,以及基于编码-对齐-解码的场景文档识别方法,基于数据混合的甲骨文识别方法;在模式识别理论探索方面,我们主要围绕对抗学习方向开展。我们考虑了对抗训练中对未见对抗样本鲁棒泛化问题,提出了一种平移一致性的正则化方法,并且在理论上给出了其泛化的上界;另外,我们在领域自适应问题中,提出了一种特征梯度分布对齐的对抗学习方法,使得原域与目标域的分布差异进一步减小。此外,我们还对目前的对抗攻击和防御进行了深入的调研,完成了一个综述工作。这些成果大部分都发表在相应的学术刊物上,包括期刊论文6篇,会议论文14篇,比如PR,IJDAR,ICCV,ICML,ACM MM,ICDAR,ICONIP等权威会议和刊物,具有较高的学术价值和一定的学术影响。很好的提高文档识别的性能,同时对相关的模式识别理论也起到了积极的推动作用,因此,项目成果具有一定的科学发展意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018

王秋锋的其他基金

批准号:61305005
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多信息融合的自然场景图像中的文本检测和识别方法研究

批准号:61305004
批准年份:2013
负责人:王大寒
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

多文档事件信息融合方法的研究

批准号:61070123
批准年份:2010
负责人:李培峰
学科分类:F0211
资助金额:33.00
项目类别:面上项目
3

互联网文档流上的不确定复杂事件检测方法

批准号:61402452
批准年份:2014
负责人:朱嘉奇
学科分类:F0607
资助金额:25.00
项目类别:青年科学基金项目
4

面向大规模XML文档集的文本分类与聚类技术研究

批准号:60875033
批准年份:2008
负责人:杨建武
学科分类:F0603
资助金额:24.00
项目类别:面上项目