基于规则和统计的蒙古语多层级文本查错及纠错推理模型研究

基本信息
批准号:61662050
项目类别:地区科学基金项目
资助金额:40.00
负责人:斯劳格劳
学科分类:
依托单位:内蒙古大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:达胡白乙拉,额尔敦朝鲁,萨如拉,吴常福,斯琴夫,楠丁,迎春,代沁,苏日图
关键词:
文本校对NGram模型多层级文本查错依存语法蒙古语
结项摘要

At present, automatic error detection and error correction technology is an important research field of natural language processing. With the continuous advance of Mongolian network technology development and language resources digitization process, in the application and research fields, such as education, office, publishing, late OCR processing, speech synthesis and corpus construction, there is an urgent need to develop an automatic error detection and error correction software systems. This project will be on the basis of previous research, focused on solving the key problems faced by the Mongolian word level, grammatical level and semantic level proofreading: how to build a high efficiency, wide coverage of checking and correcting knowledge base, how to develop a high quality check and error correction algorithm, how to integrate the triple proofreading model into the existing pronunciation correction software. The main research contents include: 1) Homographs automatic identification and correction, 2) automatic detection and correction for real-word errors and non-word errors, 3) automatic detection and correction for common syntax errors, 4) automatic detection and correction for semantic errors.

自动查错与纠错技术是自然语言处理的一个重要的研究领域。随着蒙古语网络技术的发展以及语言资源数字化进程的不断推进,在教育、办公、出版、OCR后期处理、语音合成以及语料库建设等应用领域和科研领域迫切需求自动查错与纠错软件系统。本项目将在前期研究的基础上,重点解决蒙古语词级、语法级和语义级校对所面临的关键问题:如何建立效率高,覆盖面广的查错和纠错知识库,如何研制高效高质量的查错和纠错建议生成算法,如何将三级校对模型融合到现有读音纠错软件中。主要研究内容包括:1)同形异音词读音自动纠错,2)词形非词和真词错误的查错与纠错,3)常见语法错误的查错与纠错,4)语义错误的查错与纠错等四个方面。

项目摘要

文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。随着办公软件和打字排版软件的普及以及互联网的快速发展,键盘和屏幕代替了笔和纸,电子文档代替了纸质文档。目前,在教育、办公、新闻、出版和语言资源加工领域迫切需要研发一款蒙古文自动查错与纠错软件系统。.本课题以研究和应用领域实际需求为导向,以蒙古文正字法词典、语法信息词典等词典资源为基础,综合运用蒙古文正字法规则、语法规则等语言学规则研究开发了具有正字法校对、语法校对、语义校对功能的软件系统。课题组以本项目重要研究成果——“蒙古文文本校对引擎MEC60”为基础,针对不同用户开发了5款自动校对软件,分别为:蒙古文纯文本校对系统Mongolian Editor for Plain Text V6.0(简称MET6.0)、蒙古文PDF文档校对系统Mongolian Editor for PDF V2.0(简称MEp2.0)、方正大样文件校对系统 Mongolian Editor for S2 V1.0(简称MEs1.0)、蒙古文网络版校对系统 Mongolian Editor for Web V1.0(简称MEw1.0)、蒙古文批处理版校对系统 Mongolian Editor for Batch Processing V1.0(简称MEb1.0)。.蒙古语多层级查错与纠错软件的成功研制,首先解决蒙古语出版印刷行业缺少校对人员的实际问题。其次,蒙古语语言资源的数字化需要OCR 等处理手段,而多层级校对软件很大程度上能够解决编码纠错、词级校对、语法级校对和语义级校对等后期处理问题。再次,蒙古语网络资源的检索难是普遍存在的问题,其主要原因是未能有效解决蒙古语读音非词的自动纠错和同形异音词的识别问题。本项目的研究成果可以直接用于网站建设或搜索引擎的开发中,提供多层级校对服务,从而解决检索难或不能检索的问题。.本项研究最终成果——“蒙古文文本校对系统”目前广泛被应用于新闻出版单位、教学科研机构、企事业单位和政府系统,在实际应用过程中带来了良好的经济社会效益。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni

Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni

DOI:
发表时间:2015

斯劳格劳的其他基金

相似国自然基金

1

基于生成层级的超图结构合作博弈分配规则设计和刻画研究

批准号:71901145
批准年份:2019
负责人:张广
学科分类:G0103
资助金额:20.00
项目类别:青年科学基金项目
2

基于语义分析的汉语文本错误自动侦测与纠错方法

批准号:61070119
批准年份:2010
负责人:张仰森
学科分类:F0211
资助金额:33.00
项目类别:面上项目
3

无指导汉语文本挖掘的统计模型和统计推断

批准号:11401338
批准年份:2014
负责人:邓柯
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
4

文本挖掘的统计建模

批准号:11571021
批准年份:2015
负责人:贾金柱
学科分类:A0402
资助金额:45.00
项目类别:面上项目