基于连体段的维吾尔文识别应用研究

基本信息
批准号:61163031
项目类别:地区科学基金项目
资助金额:49.00
负责人:哈力木拉提·买买提
学科分类:
依托单位:新疆大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:艾尔肯·赛甫丁,吐尔逊·库尔班,邹霞,张建周,陈晓娇,唐群群
关键词:
连体段识别阿拉伯文维吾尔文联机手写
结项摘要

无论是印刷体还是手写体维吾尔文都具有草书的特点,主要以单词及句子的形式出现,虽然与英文一样也属于拼写文字,但有着明显不同,即印刷体英文字母间都有空白间隙,利用该间隙可分割出字母,实现基于字母识别。而维吾尔文笔画简单、字母不等宽、相似字母多、具有草书连体(连写)的特点,使字母切分难度加大,很难确定基本单元字母边界。因此我们试图以单词中的自然书写间隙中的连体段,包括字母作为识别单元,结合图像处理技术,模式识别技术,统计语言模型等方法,研究基于连体段的印刷体识别算法,探索基于连体段联机规范手写识别的关键技术,结合维吾尔文上下文相关语言模型和算法,基本实现基于连体段的印刷体和联机规范手写体的识别系统原型。.在中国新疆使用的维吾尔等文种都借用了阿拉伯文和部分波斯文字符,是我国主要少数民族文字之一,开展该项技术研究是提升各民族信息化水平的迫切需要,是各民族共同与发展的迫切需要。

项目摘要

本项目结合图像处理技术和模式识别方法,我们首先对国内外相关情况进行了调研,尤其分析和总结了前期研究成果以及印刷维吾尔文单词、连体段和字母之间外观特征,提出基于连体段的可视特征提取方法,该方法最大优点是无需通过大量扫描图像样张的训练(学习)构成训练集,直接从字母表中选择和提取字母4种形式的可视外观特征,结合机读单词中的字母形式构成单词特征模型。通过图像处理,找到图像单词中的连体段数、连体段的垂直投影峰值,在峰值区域获取同样可视特征。这些特征包括连体段起始、中间、结尾和独立形式。每种形式的可能包括的其他特征,构成单词的字符串特征模型。. 根据单词的字符串特征模型,形成了10万单词的训练集,结合维吾尔文的词干特性,通过精确匹配和非精确匹配方法,实现了维吾尔文图像单词的识别。. 其意义在于无需进行大规模扫描样本训练,简单方便,可应用于移动终端印刷识别。采用以上提到的印刷体识别技术和方法,减少或避免动用大量人力和物力采集样本过程。. 存在问题:目前识别率较低,需简单的调整选择特征方案,提高识别率。. 另外在联机手写识别部分,做了些初步尝试,在维吾尔文联机手写识别过程的训练阶段,单词被切分成字母,经过特征提取和聚类形成特征向量作为模型的输入。构造出以字符为基元的隐马尔可夫模型(HMM),将其嵌入到识别字典网络中。通过基于HMM的分类识别器,最终得到识别结果。首次将消除延迟笔画、建立有延迟笔画和无延迟笔画的字典的方法应用于维吾尔文手写识别中,识别率不是很理想。.在中国新疆使用的维吾尔等文种都借用了阿拉伯文和部分波斯文字符,是我国主要少数民族文字之一,开展该项技术研究是提升各民族信息化水平的迫切需要,是各民族共同与发展的迫切需要。世界上有1/7的人口在使用阿拉伯文,该项目的研究也具有相互借鉴意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

哈力木拉提·买买提的其他基金

批准号:60863009
批准年份:2008
资助金额:22.00
项目类别:地区科学基金项目

相似国自然基金

1

基于Web语料的维吾尔文重复模式识别算法及应用研究

批准号:61263044
批准年份:2012
负责人:木妮娜·玉素甫
学科分类:F0603
资助金额:47.00
项目类别:地区科学基金项目
2

维吾尔文自然场景文本检测与识别方法研究

批准号:61662082
批准年份:2016
负责人:刘战东
学科分类:F0605
资助金额:40.00
项目类别:地区科学基金项目
3

维吾尔文命名实体识别关键技术研究

批准号:61262060
批准年份:2012
负责人:艾山·吾买尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
4

维吾尔文手写签名识别与验证的关键技术研究

批准号:61163028
批准年份:2011
负责人:库尔班·吾布力
学科分类:F0605
资助金额:52.00
项目类别:地区科学基金项目