The realization of Tibetan corpus retrieving based on Ontology could benefit the studies of Tibetan linguistics, the construction of various the knowledge bases as well as benefit Tibetan searching engines, Tibetan-Chinese Mechine Translation, Textual Information Extraction and so on. This programe uses the Knowledge Engineering and Learning with mechines to study and build the corpuses of Tibetan characters, words and syllables. To study and build a corpus of Tibetan Function Words, Predicate Semantic Mapping Library, Tibetan words and semantic framework of knowledge in the field or entity against the Tibetan Function Words in the sentences with the predicates playing a role of syntactic structure and semantic bridging. Tibetan word segmentation tagging system based on agglutinated function words recognition rules and CRF(Conditional random fields) model should be completed. Thus, Ontology with knowledge resource can be shared and reused, it has extended features as well. To conbine Ontology and Tibetan Information retrieval to solve the problem of breaking down of the characters, syllables and words in Tibetan conpletely. To complete a new retrieval system in Tibetan to meet the retrieval needs of different users through the high conceptual ability to understand the semantic retrieval.
基于Ontology的藏文语料库个性化检索的实现有利于藏语语言学研究和各种知识库的建设、藏文搜索引擎、藏汉机器翻译、文本信息抽取等。本项目采用知识工程与机器学习相结合的方法,研究和建立藏文字符构件、字符、字丁、音节分类库,针对藏文虚词在句子中同谓词扮演句法架构和语义桥接的角色,研究和构建藏文虚词知识库、谓词语义映射关系库、藏文概念语义框架等领域知识体系或实体,并完成基于虚词黏着识别规则和CRF (Conditional random fields,条件随机域)模型的藏文分词标注系统,充分利用Ontology具有知识资源共享和重复使用、可扩展的特点,将Ontology与藏文信息检索有机结合起来,从系统底层解决藏文检索中字符、字丁、音节、词汇等常被"肢解"的问题,从高层实现具有概念理解能力的语义检索技术,从而完成一个藏文新型检索系统,以满足不同用户的个性化检索需求。
基于Ontology的信息检索是一个前沿性研究课题,在类似藏语这样的小语种迈向语义web有很重要的支撑意义。通过实施本课题,我们获得了面向信息处理的语言学意义上藏语的方方面面的知识,如,藏文字符、字丁、单字音节、双字音节、三字音节、四字音节以及总音节的数量(9111个)和频度、累计频率、信息熵等,也第一次摸清了藏文的使用情况或字数(注:以前不知道目前使用的藏文字数有多少),这在语言教学和词典编纂诸领域也有重要的参考价值,数据化的这些语言知识成为一个整体的可循环利用的结构化的知识库,在藏语智能信息处理中具有基础性作用和意义,是藏文智能化必不可少的一个环节。.与此同时,作为主要参加人积极参与了《信息处理用藏文分词工程规范》、《信息处理用藏文词类分类标记规范》2项关涉藏文自动分词和语言建模的基础标准,该2项标准几番讨论修订目前已经定稿、上报,只待最后通过。并且,基于该2项标准我们建设了规模为113万词次的藏文分词及词性标注语料库,训练出基于CRF的语言模型,并提出了粘着性虚词切分规则,研究建设了35万词种的分词词表和18万带词性的标注词表,研制了较高品质的藏文自动分词系统,已经达到应用水平,进行应用转换后应用于藏文全文检索——云藏搜索引擎系统,突破自动分词应用瓶颈,这在藏文信息处理领域尚属首次。.藏文同义词框架语义知识库的建设是本课题的另一重要内容,辞藻和同义词为主的框架体系的研究建设虽属领域本体,但在应用中仍然发挥了较好的作用,这也是本课题的一个亮点。领域本体的成功,对于下一步研制藏文通用本体积累了一定的经验和知识,不管是藏文本体理论研究还是应用研究都具有重要的科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
Ordinal space projection learning via neighbor classes representation
基于纳米铝颗粒改性合成稳定的JP-10基纳米流体燃料
Image super-resolution based on sparse coding with multi-class dictionaries
Phosphorus-Induced Lipid Class Alteration Revealed by Lipidomic and Transcriptomic Profiling in Oleaginous Microalga Nannochloropsis sp. PJ12
理解数字音乐——音乐信息检索技术综述
面向特定领域基于Ontology的跨语言信息检索技术研究
基于内容的音频信息检索关键技术研究
基于Web的音频识别与检索关键技术研究
基于医学图像模糊内容检索的关键技术研究