At present, automatic error detection and error correction technology is an important research field of natural language processing. With the continuous advance of Mongolian network technology development and language resources digitization process, in the application and research fields, such as education, office, publishing, late OCR processing, speech synthesis and corpus construction, there is an urgent need to develop an automatic error detection and error correction software systems. This project will be on the basis of previous research, focused on solving the key problems faced by the Mongolian word level, grammatical level and semantic level proofreading: how to build a high efficiency, wide coverage of checking and correcting knowledge base, how to develop a high quality check and error correction algorithm, how to integrate the triple proofreading model into the existing pronunciation correction software. The main research contents include: 1) Homographs automatic identification and correction, 2) automatic detection and correction for real-word errors and non-word errors, 3) automatic detection and correction for common syntax errors, 4) automatic detection and correction for semantic errors.
自动查错与纠错技术是自然语言处理的一个重要的研究领域。随着蒙古语网络技术的发展以及语言资源数字化进程的不断推进,在教育、办公、出版、OCR后期处理、语音合成以及语料库建设等应用领域和科研领域迫切需求自动查错与纠错软件系统。本项目将在前期研究的基础上,重点解决蒙古语词级、语法级和语义级校对所面临的关键问题:如何建立效率高,覆盖面广的查错和纠错知识库,如何研制高效高质量的查错和纠错建议生成算法,如何将三级校对模型融合到现有读音纠错软件中。主要研究内容包括:1)同形异音词读音自动纠错,2)词形非词和真词错误的查错与纠错,3)常见语法错误的查错与纠错,4)语义错误的查错与纠错等四个方面。
文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。随着办公软件和打字排版软件的普及以及互联网的快速发展,键盘和屏幕代替了笔和纸,电子文档代替了纸质文档。目前,在教育、办公、新闻、出版和语言资源加工领域迫切需要研发一款蒙古文自动查错与纠错软件系统。.本课题以研究和应用领域实际需求为导向,以蒙古文正字法词典、语法信息词典等词典资源为基础,综合运用蒙古文正字法规则、语法规则等语言学规则研究开发了具有正字法校对、语法校对、语义校对功能的软件系统。课题组以本项目重要研究成果——“蒙古文文本校对引擎MEC60”为基础,针对不同用户开发了5款自动校对软件,分别为:蒙古文纯文本校对系统Mongolian Editor for Plain Text V6.0(简称MET6.0)、蒙古文PDF文档校对系统Mongolian Editor for PDF V2.0(简称MEp2.0)、方正大样文件校对系统 Mongolian Editor for S2 V1.0(简称MEs1.0)、蒙古文网络版校对系统 Mongolian Editor for Web V1.0(简称MEw1.0)、蒙古文批处理版校对系统 Mongolian Editor for Batch Processing V1.0(简称MEb1.0)。.蒙古语多层级查错与纠错软件的成功研制,首先解决蒙古语出版印刷行业缺少校对人员的实际问题。其次,蒙古语语言资源的数字化需要OCR 等处理手段,而多层级校对软件很大程度上能够解决编码纠错、词级校对、语法级校对和语义级校对等后期处理问题。再次,蒙古语网络资源的检索难是普遍存在的问题,其主要原因是未能有效解决蒙古语读音非词的自动纠错和同形异音词的识别问题。本项目的研究成果可以直接用于网站建设或搜索引擎的开发中,提供多层级校对服务,从而解决检索难或不能检索的问题。.本项研究最终成果——“蒙古文文本校对系统”目前广泛被应用于新闻出版单位、教学科研机构、企事业单位和政府系统,在实际应用过程中带来了良好的经济社会效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni
基于生成层级的超图结构合作博弈分配规则设计和刻画研究
基于语义分析的汉语文本错误自动侦测与纠错方法
无指导汉语文本挖掘的统计模型和统计推断
文本挖掘的统计建模